Bayes-Schätzer

Ein Bayes-Schätzer (IPA: [ˈbɛɪ̯zˌʃɛt͡sɐ], anhören^ⓘ^/?; benannt nach Thomas Bayes) ist in der mathematischen Statistik eine Schätzfunktion, die zusätzlich zu den beobachteten Daten eventuell vorhandenes Vorwissen über einen zu schätzenden Parameter berücksichtigt. Gemäß der Vorgehensweise der bayesschen Statistik wird dieses Vorwissen durch eine Verteilung für den Parameter modelliert, die A-priori-Verteilung. Mit dem Satz von Bayes ergibt sich die bedingte Verteilung des Parameters unter den Beobachtungsdaten, die A-posteriori-Verteilung. Um daraus einen eindeutigen Schätzwert zu erhalten, werden Lagemaße der A-posteriori-Verteilung, wie Erwartungswert, Modus oder Median, als sogenannte Bayes-Schätzer verwendet. Da der A-posteriori-Erwartungswert der wichtigste und in der Praxis am häufigsten angewendete Schätzer ist, bezeichnen auch einige Autoren diesen als den Bayes-Schätzer.^[1] Allgemein definiert man einen Bayes-Schätzer als denjenigen Wert, der den Erwartungswert einer Verlustfunktion unter der A-posteriori-Verteilung minimiert. Für eine quadratische Verlustfunktion ergibt sich dann gerade der A-posteriori-Erwartungswert als Schätzer.

Definition

Es bezeichnen $\theta \in \Theta$ den zu schätzenden Parameter und $f(x|\theta )$ die Likelihood, also die Verteilung der Beobachtung $x\in {\mathcal {X}}$ in Abhängigkeit von $\theta$ . Die A-priori-Verteilung des Parameters sei mit $g(\theta )$ bezeichnet. Dann ist

h(\theta |x)={\frac {f(x|\theta )g(\theta )}{\int _{\Theta }f(x|\theta ')g(\theta ')\,\mathrm {d} \theta '}}

die A-posteriori-Verteilung von $\theta$ . Es sei weiter eine Funktion $\ell \colon \Theta \times \Theta \to \mathbb {R}$ , genannt Verlustfunktion, gegeben, deren Werte $\ell (a,\theta )$ den Verlust modellieren, den man bei einer Schätzung von $\theta$ durch $a$ erleidet. Dann heißt ein Wert $a\in \Theta$ , der den Erwartungswert

\operatorname {E} (\ell (a,\cdot )|x)=\int _{\Theta }\ell (a,\theta )h(\theta |x)\,\mathrm {d} \theta

des Verlustes unter der A-posteriori-Verteilung minimiert, ein Bayes-Schätzer von $\theta$ .^[2] Im Fall einer diskreten Verteilung von $\theta$ sind die Integrale über $\Theta$ als Summation über $\theta \in \Theta$ zu verstehen.

Spezialfälle

A-posteriori-Erwartungswert

Eine wichtige und häufig verwendete Verlustfunktion ist die quadratische Abweichung

\ell (a,\theta )=(a-\theta )^{2}

.

Mit dieser Verlustfunktion ergibt sich als Bayes-Schätzer der Erwartungswert der A-posteriori-Verteilung, kurz der A-posteriori-Erwartungswert

\operatorname {E} (\theta |x)=\int _{\Theta }\theta \,h(\theta |x)\,\mathrm {d} \theta ={\frac {\int _{\Theta }\theta f(x|\theta )g(\theta )\,\mathrm {d} \theta }{\int _{\Theta }f(x|\theta )g(\theta )\,\mathrm {d} \theta }}

.

Das sieht man auf folgende Weise: Differenziert man $\operatorname {E} ((a-\theta )^{2}|x)$ nach $a$ , ergibt sich

{\frac {\mathrm {d} }{\mathrm {d} a}}\left(\int _{\Theta }(a-\theta )^{2}h(\theta |x)\,\mathrm {d} \theta \right)=2\int _{\Theta }(a-\theta )h(\theta |x)\,\mathrm {d} \theta =2a\underbrace {\int _{\Theta }h(\theta |x)\,\mathrm {d} \theta } _{=\,1}-2\int _{\Theta }\theta h(\theta |x)\,\mathrm {d} \theta

.

Nullsetzen dieser Ableitung und Auflösen nach $a$ liefert obige Formel.

A-posteriori-Median

Ein weiterer wichtiger Bayes-Schätzer ist der Median der A-posteriori-Verteilung. Er ergibt sich bei Verwendung der stückweise linearen Verlustfunktion

\ell (a,\theta )=|a-\theta |

,

des Betrags des absoluten Fehlers. Bei einer stetigen A-posteriori-Verteilung ergibt sich der zugehörige Bayes-Schätzer als Lösung $a$ der Gleichung

\int _{-\infty }^{a}h(\theta |x)\,\mathrm {d} \theta ={\frac {1}{2}}

,

also als Median der Verteilung mit Dichte $h(\cdot |x)$ .

A-posteriori-Modus

Für diskret verteilte Parameter $\theta$ bietet sich die Null-Eins-Verlustfunktion

\ell (a,\theta )={\begin{cases}0,&a=\theta ,\\1,&{\text{sonst}},\end{cases}}

an, die allen falschen Schätzungen einen konstanten Verlust zuordnet und nur eine exakte Schätzung nicht „bestraft“. Als Erwartungswert dieser Verlustfunktion ergibt sich die A-posteriori-Wahrscheinlichkeit des Ereignisses $\{\theta \neq a\}$ , also $1-h(a|x)$ . Diese wird minimal an den Stellen, an denen $h(a|x)$ maximal ist, das heißt an den Modalwerten der A-posteriori-Verteilung.

Bei stetig verteilten $\theta$ hat das Ereignis $\theta =a$ für alle $a$ Wahrscheinlichkeit null. In diesem Fall kann man stattdessen für ein (kleines) vorgegebenes $\varepsilon >0$ die Verlustfunktion

\ell (a,\theta )={\begin{cases}0,&|a-\theta |\leq \varepsilon \\1,&|a-\theta |>\varepsilon \end{cases}}

betrachten. Im Limes $\varepsilon \to 0$ ergibt sich dann ebenfalls der A-posteriori-Modus als Bayes-Schätzer.

Im Falle einer Gleichverteilung als A-priori-Verteilung ergibt sich der Maximum-Likelihood-Schätzer, der somit einen Spezialfall eines Bayes-Schätzers darstellt.

Beispiel

A-priori- (gestrichelt) und A-posteriori-Dichte im nebenstehenden Beispiel; A-posteriori-Modus, -Median und -Erwartungswert sind durch vertikale Linien markiert

Eine Urne enthält rote und schwarze Kugeln in unbekannter Zusammensetzung, das heißt, die Wahrscheinlichkeit $p$ , eine rote Kugel zu ziehen, ist unbekannt. Um $\theta =p$ zu schätzen, werden $n=6$ Kugeln nacheinander mit Zurücklegen gezogen: Nur eine einzige Ziehung liefert eine rote Kugel, es wird also $x=1$ beobachtet. Die Anzahl der gezogenen roten Kugeln ist binomialverteilt mit $n=6$ und $p$ , also gilt

f(x|\theta )={\binom {n}{x}}p^{x}(1-p)^{n-x}=6p(1-p)^{5}

.

Da über den zu schätzenden Parameter $p$ keinerlei Information vorliegt, wird die Gleichverteilung als A-priori-Verteilung verwendet, das heißt $g(\theta )=1$ für $\theta \in \Theta =(0,1)$ . Als A-posteriori-Verteilung ergibt sich somit

h(\theta |x)={\frac {f(x|\theta )g(\theta )}{\int _{\Theta }f(x|\theta ')g(\theta ')\,\mathrm {d} \theta '}}={\frac {6p(1-p)^{5}}{\int _{0}^{1}6p(1-p)^{5}\,\mathrm {d} p}}=42p(1-p)^{5}

.

Das ist die Dichte einer Beta-Verteilung mit den Parametern $\alpha =2$ und $\beta =6$ . Damit ergibt sich als A-posteriori-Erwartungswert ${\frac {\alpha }{\alpha +\beta }}={\frac {1}{4}}$ und als A-posteriori-Modus ${\frac {\alpha -1}{\alpha +\beta -2}}={\frac {1}{6}}$ . Der A-posteriori-Median muss numerisch bestimmt werden und ergibt ungefähr $0{,}2285$ . Allgemein ergibt sich bei $k$ roten Kugeln in $n$ Ziehungen ${\frac {k+1}{n+2}}$ als A-posteriori-Erwartungswert und ${\frac {k}{n}}$ , also der klassische Maximum-Likelihood-Schätzer, als A-posteriori-Modus. Für nicht zu kleine Werte von $n$ ist ${\frac {k+{\frac {2}{3}}}{n+{\frac {4}{3}}}}$ eine gute Näherung für den A-posteriori-Median.

Praktische Berechnung

Ein Hindernis bei der Anwendung von Bayes-Schätzern kann ihre numerische Berechnung sein. Ein klassischer Ansatz ist die Verwendung von sogenannten konjugierten A-priori-Verteilungen, bei denen sich eine A-posteriori-Verteilung aus einer bekannten Verteilungsklasse ergibt, deren Lageparameter dann einfach in einer Tabelle nachgeschlagen werden können. Verwendet man beispielsweise im obigen Urnenexperiment eine beliebige Betaverteilung als Prior, dann ergibt sich auch eine Betaverteilung als A-posteriori-Verteilung.^[3]

Für allgemeine A-priori-Verteilungen zeigt die obige Formel des A-posteriori-Erwartungswerts, dass zu seiner Berechnung zwei Integrale über den Parameterraum bestimmt werden müssen. Eine klassische Näherungsmethode ist die Laplace-Approximation, bei der die Integranden als Exponentialfunktion geschrieben werden und anschließend die Exponenten durch eine quadratische Taylor-Approximation angenähert werden.^[4]

Mit dem Aufkommen leistungsfähiger Computer wurden weitere numerische Verfahren zur Berechnung der auftretenden Integrale anwendbar (siehe Numerische Integration). Ein Problem stellen vor allem hochdimensionale Parametermengen dar, also der Fall, dass sehr viele Parameter aus den Daten geschätzt werden sollen. Hierbei kommen häufig Monte-Carlo-Verfahren als Näherungsverfahren zum Einsatz.^[5]

Literatur

Leonhard Held: Methoden der statistischen Inferenz. Likelihood und Bayes. Springer Spektrum, Heidelberg 2008, ISBN 978-3-8274-1939-2.
Erich Leo Lehmann, George Casella: Theory of Point Estimation. 2. Auflage. Springer, New York u. a. 1998, ISBN 0-387-98502-6, Kapitel 4.

Einzelnachweise

↑ Karl-Rudolf Koch: Einführung in die Bayes-Statistik. Springer, Berlin/Heidelberg 2000, ISBN 3-540-66670-2, S. 66 (eingeschränkte Vorschau in der Google-Buchsuche).
↑ Leonhard Held: Methoden der statistischen Inferenz. Likelihood und Bayes. Springer Spektrum, Heidelberg 2008, ISBN 978-3-8274-1939-2.
↑ Held: Methoden der statistischen Inferenz. 2008, S. 146–148.
↑ Held: Methoden der statistischen Inferenz. 2008, S. 188–191.
↑ Held: Methoden der statistischen Inferenz. 2008, S. 192–208.

[1] Karl-Rudolf Koch: Einführung in die Bayes-Statistik. Springer, Berlin/Heidelberg 2000, ISBN 3-540-66670-2, S. 66 (eingeschränkte Vorschau in der Google-Buchsuche).

[Held-2] Leonhard Held: Methoden der statistischen Inferenz. Likelihood und Bayes. Springer Spektrum, Heidelberg 2008, ISBN 978-3-8274-1939-2.

[3] Held: Methoden der statistischen Inferenz. 2008, S. 146–148.

[4] Held: Methoden der statistischen Inferenz. 2008, S. 188–191.

[5] Held: Methoden der statistischen Inferenz. 2008, S. 192–208.

[1]

[2]

[3]

[4]

[5]