Maximum-a-posteriori-Schätzung

Die Maximum-a-posteriori-Methode (= MAP) ist in der mathematischen Statistik ein Schätzverfahren, genauer ein spezieller Bayes-Schätzer. Das Verfahren schätzt einen unbekannten Parameter durch den Modalwert der A-posteriori-Verteilung. Somit besteht eine gewisse Ähnlichkeit zur Maximum-Likelihood-Methode.

Beschreibung

Folgende Situation ist gegeben: $\theta$ ist ein unbekannter Parameter einer Grundgesamtheit, der auf der Basis von Beobachtungen $x$ geschätzt werden soll. Weiterhin sei $f$ die Stichprobenverteilung von $x$ , also $f(x|\theta )$ die Wahrscheinlichkeit von $x$ , wenn der (wahre) Parameter der Grundgesamtheit den Wert $\theta$ hat.

Die Funktion

\theta \mapsto f(x|\theta )\!

ist als Likelihood-Funktion bekannt, und der Schätzwert

{\hat {\theta }}_{\mathrm {ML} }(x)={\underset {\theta }{\operatorname {arg\,max} }}\ f(x|\theta )\!

als Maximum-Likelihood-Schätzer von $\theta$ .

Nun stehe aber zusätzlich eine A-priori-Verteilung $g$ von $\theta$ zur Verfügung. Dadurch lässt sich $\theta$ als eine Zufallsvariable betrachten, wie es in der bayesschen Statistik üblich ist. Die A-posteriori-Verteilung von $\theta$ erhält man mit Hilfe des Satzes von Bayes durch:

\theta \mapsto f(\theta |x)={\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}

Die Maximum-a-Posteriori-Methode verwendet jetzt den Modalwert der A-posteriori-Verteilung als Schätzwert für $\theta$ . Da das Integral im Nenner nicht von $\theta$ abhängt, braucht es bei der Maximierung nicht berücksichtigt zu werden:

{\hat {\theta }}_{\mathrm {MAP} }(x)={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\left[{\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\right]={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\left[f(x|\theta )\,g(\theta )\right]

.

Der MAP-Schätzer von $\theta$ ist identisch zum Maximum-Likelihood-Schätzer (= ML-Schätzer), wenn eine nichtinformative A-priori-Verteilung (z. B. Gleichverteilung) verwendet wird.

Vergleich mit anderen bayesschen (Punkt-)Schätzmethoden

In der Literatur wird der MAP-Schätzer als das Äquivalent der bayesschen Statistik zum ML-Schätzer beschrieben^[1].

Allerdings spielt die MAP-Schätzung in der bayesschen Statistik nicht die gleiche Rolle wie der ML-Schätzer in der frequentistischen Statistik:

Bayessche Statistiker drücken in der Regel die (A-posteriori-)Information über einen unbekannten Parameter in einer Wahrscheinlichkeitsverteilung aus, und nicht in einem Punktschätzer.^[2]
Der Erwartungswert der A-posteriori-Verteilung ist dem MAP-Schätzer überlegen, wenn man, wie in der bayesschen Statistik üblich, die A-posteriori-Varianz eines Schätzers als Gütemaß verwendet.^[3]
In vielen Fällen ist zudem auch der Median ein besserer Schätzer als der MAP-Schätzer.^[4]

In der bayesschen Entscheidungstheorie sind für die gebräuchlichsten Verlustfunktionen andere Schätzer als der MAP-Schätzer optimal:^[5]

Bei einer quadratischen Verlustfunktion ist der Erwartungswert der A-posteriori-Verteilung die optimale Schätzfunktion.
Wenn man den Absolutbetrag des Schätzfehlers als Verlustfunktion verwendet (also: $L(\theta ,a)=|\theta -a|$ , mit a als beliebiger Schätzfunktion), ist der Median der A-posteriori-Verteilung die optimale Schätzfunktion.

Vergleich mit der Maximum-Likelihood-Methode

Im Unterschied zur ML-Methode wird bei der MAP-Methode Vorwissen in Form von A-priori-Wahrscheinlichkeiten berücksichtigt. Diese A-priori-Wahrscheinlichkeiten ergeben zusammen mit der Stichprobe nach dem Satz von Bayes die A-posteriori-Wahrscheinlichkeit. Die MAP-Methode verwendet den wahrscheinlichsten Parameterwert unter der A-posteriori-Verteilung, während die ML-Methode den Parameter mit der höchsten Likelihood (d. h. ohne Vorwissen) verwendet. Allerdings ist für einen streng frequentistischen Statistiker die Verwendung einer A-priori-Verteilung inakzeptabel. Daher wird in der klassischen Statistik die ML-Methode statt der MAP-Methode verwendet.

Der Maximum-Likelihood-Schätzer kann als Spezialfall eines Maximum-a-Posteriori-Schätzers angesehen werden, bei dem die A-priori-Verteilung $g\left(\theta \right)$ uninformativ ist (für beschränkte Wertebereiche von $\theta$ etwa eine Gleichverteilung). Umgekehrt ist jeder Maximum-a-Posteriori-Schätzer für Stichprobenverteilung $f\left(x\mid \theta \right)$ und A-priori-Verteilung $g\left(\theta \right)$ ein Maximum-Likelihood-Schätzer für die Stichprobenverteilung $h_{\theta }\left(x\right)$ mit

h_{\theta }\left(x\right)={\frac {f\left(x\mid \theta \right)\cdot g\left(\theta \right)}{\displaystyle \int _{\Theta }f\left(x\mid \theta '\right)\cdot g\left(\theta '\right)\,\mathrm {d} \theta '}}

.

Beide Verfahren können sich also gegenseitig simulieren und sind in diesem Sinne „gleichmächtig“.

Beispiel

In einer Urne befinden sich rote und schwarze Kugeln. Durch Ziehen mit Zurücklegen soll ermittelt werden, wie hoch der (wahre) Anteil der roten Kugeln in der Urne ist. Die Anzahl der roten Kugeln kann dann durch eine Binomialverteilung mit Stichprobengröße N=10 und unbekanntem Parameter $\pi$ (d. h. einer $\operatorname {Bin} \left(10,\pi \right)$ -Verteilung) beschrieben werden. Im Folgenden nehmen wir an, dass bei solch einem Test 7 rote Kugeln gezogen wurden.

Maximum-Likelihood-Schätzung

Mit der ML-Methode schätzt man den Anteil $\pi$ der roten Kugeln auf 70 %.

Nichtinformative A-priori-Verteilung

Als nichtinformative A-priori-Verteilung für eine binomialverteilte Zufallsgröße kann die Beta(1,1)-Verteilung (äquivalent zur stetigen Gleichverteilung auf dem Intervall $\left[0,1\right]$ ) verwendet werden. Dieses Vorwissen nimmt alle möglichen Werte $\pi$ als gleich wahrscheinlich an.

A-posteriori-Verteilung ist dann die $\operatorname {Beta} \left(8,4\right)$ -Verteilung, deren Modalwert bei 0,7 liegt. Durch MAP-Schätzung schätzt man daher den Anteil roter Kugeln ebenfalls auf 70 %. Der Erwartungswert der $\operatorname {Beta} \left(8,4\right)$ -Verteilung liegt bei ${\tfrac {2}{3}}$ . Daher würde man bei Verwendung des A-posteriori-Erwartungswertes als Schätzfunktion den Anteil roter Kugeln auf 66,67 % schätzen.

Unter der Annahme, dass das Vorwissen (gleiche Wahrscheinlichkeit für alle $\pi$ ) die Verteilung des wahren Werts über viele solcher Urnen korrekt beschreibt, minimiert der A-posteriori-Erwartungswert die mittlere quadratische Abweichung des Schätzers vom jeweiligen wahren Wert.

Informative A-priori-Verteilung

Jetzt sei angenommen, dass ein gewisses Vorwissen über den Anteil der roten Kugeln bekannt ist, das sich in einer $\operatorname {Beta} \left(5,5\right)$ -Verteilung ausdrücken lässt. Das entspricht beispielsweise dem Vorwissen, dass schon einmal 4 von 8 gezogenen Kugeln rot waren.

A-posteriori-Verteilung ist in diesem Fall die $\operatorname {Beta} \left(12,8\right)$ -Verteilung, deren Modalwert 0,611 ist. Mittels der MAP-Methode schätzt man daher den Anteil roter Kugeln auf 61,1 %. In diesem Fall liegt der MAP-Schätzer zwischen dem Modalwert der A-priori-Verteilung und dem Maximum-Likelihood-Schätzer.

Erwartungswert der A-posteriori-Verteilung wäre 0,6, d. h. man würde bei Verwendung des A-posteriori-Erwartungswertes als Schätzfunktion den Anteil roter Kugeln auf 60 % schätzen.

Siehe auch

posterior predictive distribution

Literatur

Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler. R. Oldenbourg Verlag, München Wien 1988. ISBN 3-486-20535-8
James O. Berger: Statistical decision theory and Bayesian analysis. Springer Series in Statistics, Springer-Verlag, New York Berlin Heidelberg 1985. ISBN 0-387-96098-8

Einzelnachweise

↑ Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler, S. 161f
↑ James O. Berger: Statistical decision theory and Bayesian analysis, S. 133
↑ James O. Berger: Statistical decision theory and Bayesian analysis, S. 136
↑ James O. Berger: Statistical decision theory and Bayesian analysis, S. 134
↑ James O. Berger: Statistical decision theory and Bayesian analysis, S. 161f.

[1] Bernhard Rüger: Induktive Statistik. Einführung für Wirtschafts- und Sozialwissenschaftler, S. 161f

[2] James O. Berger: Statistical decision theory and Bayesian analysis, S. 133

[3] James O. Berger: Statistical decision theory and Bayesian analysis, S. 136

[4] James O. Berger: Statistical decision theory and Bayesian analysis, S. 134

[5] James O. Berger: Statistical decision theory and Bayesian analysis, S. 161f.

[1]

[2]

[3]

[4]

[5]