Satz von Bernstein-von-Mises

Der Satz von Bernstein-von-Mises ist ein nach Sergei Bernstein und Richard von Mises benannter Lehrsatz der mathematischen Statistik. Seine anschauliche Bedeutung besteht darin, dass bayessches Lernen, wie es zum Beispiel bei Bayesschen Netzen angewandt wird, auf lange Sicht zu den richtigen Ergebnissen führt.

Der Satz besagt, dass sich in parametrischen Modellen die A-posteriori-Verteilung im Regelfall unabhängig von der A-priori-Verteilung asymptotisch (bei großer Anzahl von Beobachtungen) um den wahren Parameter (Konsistenz des bayesschen Schätzers) konzentriert. Er stellt damit eine wichtige Verbindung zwischen bayesscher Statistik und frequentistischer Statistik her.

Die entsprechend zentrierte und skalierte A-Posteriori-Verteilung ist nach dem Satz von Bernstein-von-Mises sogar asymptotisch eine Normalverteilung mit der inversen Fisher-Informations-Matrix als Kovarianzmatrix (asymptotische Effizienz des bayesschen Schätzers):

P(\theta |x_{1},\dots x_{n})={\mathcal {N}}(\theta _{0},n^{-1}I_{n}(\theta _{0})^{-1}){\text{ für }}n\to \infty ,

mit $\theta _{0}$ als wahrer Parameter. Demnach führen in parametrischen Modellen optimale frequentistische und bayessche Ansätze asymptotisch zu qualitativ gleichen Ergebnissen.

Also ist die A-posteriori-Verteilung für die unbekannten Größen in einem Problem in gewissem Sinne von der A-priori-Verteilung unabhängig, sobald die durch die Stichprobe gewonnene Informationsmenge groß genug ist.^[1]

Anwendungsbeispiel

Im Folgenden sollen die Anwendung des Satzes und die typische Vorgehensweise der bayesschen Inferenz anhand eines einfachen Beispiels illustriert werden: Beobachtet wird eine Zufallsvariable $Y$ und deren Realisierung anhand eines Satzes von Messdaten $y=\{y_{1},\dotsc ,y_{n}\}$ aus dem Stichprobenraum. Diese Daten sollen durch ein stochastisches Modell mit unbekanntem Parameter $\vartheta$ , welcher auch vektorwertig sein kann, beschrieben werden. Bevor die Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher, und ein gemeinsames stochastisches Modell für $(Y,\vartheta )$ ist sinnvoll. In dieser Interpretation ist auch der Parameter $\vartheta$ eine Zufallsvariable mit einer Prior-Verteilung $p(\vartheta )$ . Diese ist offensichtlich vor der tatsächlichen Datenmessung noch unbekannt, und es muss eine „vernünftige“ A-priori-Annahme über sie getroffen werden. Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert. Die gesamte verfügbare Information über $\vartheta$ wird durch die Posterior-Verteilung $p(\vartheta |y)$ beschrieben. Diese ist nach dem Satz von Bayes gegeben als

p(\vartheta |y)={\frac {p(y|\vartheta )\;p(\vartheta )}{p(y)}}

,

wobei der Ausdruck $p(y|\vartheta )$ die sogenannte Likelihood-Funktion darstellt und die Verteilung von $Y$ bei gegebenem Parameter $\vartheta$ beschreibt. Es ist zu erhoffen, dass die Posterior-Verteilung $p(\vartheta |y)$ eine bessere und genauere Aussage über $\vartheta$ ermöglicht als die ursprüngliche naive Prior-Verteilung $p(\vartheta )$ . Dieser letzte Schritt wird gewöhnlich als bayessches Lernen bezeichnet und ist ein wesentlicher Schritt beim Lernen in neuronalen Netzen. Nehmen wir nun diese letzte Posterior-Verteilung $p(\vartheta |y)$ als neue Prior-Verteilung an, erheben einen neuen weiteren Datensatz und wiederholen das obige Vorgehen, erhalten wir nach einem weiteren bayesschen Lernschritt eine weitere, aktualisierte Posterior-Verteilung. Diese enthält nun Informationen von zwei Datensätzen und sollte damit eine noch bessere und genauere Aussage über $\vartheta$ liefern. Dass die wiederholte Anwendung dieses bayesschen Lernens sich erfolgreich der tatsächlichen Verteilung von $\vartheta$ annähert, ist Aussage des Bernstein-von-Mises-Theorems. Die Konvergenz dieses Verfahrens gegen die tatsächliche Verteilung von $\vartheta$ erfolgt unter gewissen Voraussetzungen fast sicher und ist unabhängig von der Prior-Verteilung.

Formulierung des Satzes

Für eine Parametermenge $\Theta \subset \mathbb {R} ^{k}$ sei $(P_{\theta })_{\theta \in \Theta }$ ein dominiertes parametrisches statistisches Modell, d. h. für jedes $\theta \in \Theta$ hat man $P_{\theta }=p_{\theta }\mu$ mit einem Maß $\mu$ auf $\mathbb {R} ^{d}$ . Dabei sei $\theta _{0}$ der Parameterwert, den man tatsächlich schätzen will.

Wir nehmen an, dass $p_{\theta _{0}}$ differenzierbar im geometrischen Mittel ist, d. h. dass es einen Vektor aus $k$ Funktionen $l_{\theta _{0}}$ gibt (den Score in $\theta _{0}$ ), so dass für $h\to 0$ :

$\int ({\sqrt {p_{\theta _{0}+h}}}-{\sqrt {p_{\theta _{0}}}}-{\frac {1}{2}}h^{T}l_{\theta _{0}}{\sqrt {p_{\theta _{0}}}})^{2}d\mu =o(||h||^{2})$

Der Score ist zentriert und besitzt eine Varianz $I_{\theta _{0}}$ , die Fisher-Information. Wir nehmen an, dass diese Matrix invertierbar ist.

Um den Satz von Bayes anwenden zu können, nehmen wir an, dass $\theta$ einem a priori-Dichtegesetz $\pi$ genügt, welches wir stetig und positiv in $\theta _{0}$ annehmen.

Schließlich nehmen wir an, dass es für jedes $\varepsilon >0$ eine Folge statistischer Tests $\phi _{n}$ gibt, so dass $\displaystyle \lim _{n\to \infty }\mathbb {E} _{\theta _{0}}[\phi _{n}]=0$ und $\displaystyle \lim _{n\to \infty }\sup _{\theta \colon ||\theta -\theta _{0}||\geq \varepsilon }\mathbb {E} _{\theta }[1-\phi _{n}]=0$ .

Unter diesen Annahmen besagt der Satz dann, dass die mit dem Satz von Bayes berechnete a posteriori-Verteilung von ${\sqrt {n}}(\theta -\theta _{0})$ mit den Beobachtungen $(X_{1},\cdots ,X_{n})$ „asymptotisch nahe“ in Wahrscheinlichkeit zu einer Normalverteilung ist, deren Varianz das Inverse der Fischer-Information ist.

Mathematisch beschreibt man das mit Hilfe der totalen Variation $||.||_{VT}$ durch die Beziehung

$||{\mathcal {L}}({\sqrt {n}}(\theta -\theta _{0})|X_{1},\cdots ,X_{n})-{\mathcal {N}}(\Delta _{n}(\theta _{0}),I_{\theta _{0}}^{-1})||_{VT}=o_{P_{\theta _{0}}}(1)$

mit $\Delta _{n}(\theta _{0})=I_{\theta _{0}}^{-1}{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}l_{\theta _{0}}(X_{i})$ .

Caveat

Der Satz von Bernstein und von Mises ist zufriedenstellend, wenn angenommen wird, dass der Parameter durch einen Zufallsmechanismus ausgewählt wird, dessen Wahrscheinlichkeitsgesetz bekannt ist. Andererseits ist es in manchen Fällen erforderlich, die Ausnahme-Nullmenge zu identifizieren. Wenn der Parameter beispielsweise fest, aber unbekannt ist und der Prior als bequeme Methode zur Berechnung von Schätzungen verwendet wird, ist es wichtig zu wissen, für welche Nullmenge die Methode scheitert. Insbesondere wäre es wünschenswert, den Prior so zu wählen, dass die Ausnahme-Nullmenge tatsächlich leer ist. Der einfachst mögliche Fall dieses Problems, nämlich der von unabhängigen, identisch verteilten, diskreten Beobachtungen wird in ^[2] diskutiert.

Bayes’sche Schätzungen können inkonsistent sein, wenn der zugrundeliegende Mechanismus eine unendliche Menge möglicher Ausgänge zulässt. Es gibt jedoch Klassen von Prioren („tailfree priors“ und „Dirichlet priors“), für die Konsistenz von Prioren bewiesen werden kann. Für andere Prioren, beispielsweise die in ^[3] diskutierten, erhält man aber inkonsistente Schätzungen.

Geschichte

Das Theorem wurde benannt nach Richard von Mises und Sergei Natanowitsch Bernstein, obwohl der erste strenge Beweis durch Joseph L. Doob im Jahre 1949 für Zufallsvariablen mit endlichen Wahrscheinlichkeitsräumen gegeben wurde.^[4] Später haben Lucien Le Cam, seine Doktorandin Lorraine Schwarz, die Mathematiker David A. Freedman und Persi Diaconis das Theorem und seine Voraussetzungen verallgemeinert. Auf ein bemerkenswertes Resultat von David A. Freedman aus dem Jahre 1965 sei hingewiesen: das Bernstein-von-Mises-Theorem ist fast sicher „nicht anwendbar“, wenn die Zufallsvariable in einem unendlich abzählbaren Wahrscheinlichkeitsraum lebt. In anderen Worten ausgedrückt, konvergiert in diesem Falle für fast alle anfänglichen Prior-Verteilungen das Verfahren nicht gegen die wahre Verteilung. Der anschauliche Grund hierfür liegt darin, dass die in einem jeweiligen bayesschen Lernschritt gelernte Information vom Maß 0 ist. Eine negative Folge hiervon zeigt sich bereits bei hochdimensionalen, aber endlichen Problemen, wie Persi Diaconis und David A. Freedman in ihrer Publikation von 1986 im letzten Satz der Zusammenfassung anmerken:

“Unfortunately, in high-dimensional problems, arbitrary details of the prior can really matter; indeed, the prior can swamp the data, no matter how much data you have. That is what our examples suggest, and that is why we advise against the mechanical use of Bayesian nonparametric techniques.”

„Leider sind in hoch-dimensionalen Problemen die genauen Details der Prior-Verteilung wirklich wichtig. Denn tatsächlich kann der Prior die Daten in die falsche Richtung abdrängen‘, egal wie viele Daten auch immer zur Verfügung stehen. Dies ist es, was unsere Beispiele nahelegen, und warum wir davon abraten, die bayesschen nicht-parametrischen Techniken einfach mechanisch anzuwenden.“^[5]

Der bekannte Statistiker A. W. F. Edwards bemerkte einmal ähnlich: „Manchmal wird zur Verteidigung des bayesschen Konzepts gesagt, dass die Wahl der Prior-Verteilung in der Praxis unerheblich ist, weil sie die Posterior-Verteilung kaum beeinflußt, wenn es genug Daten gibt. Je weniger zu dieser ‚Verteidigung‘ gesagt wird, desto besser.“^[6]

Literatur

David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case. In: The Annals of Mathematical Statistics, vol. 34, 1963, S. 1386–1403, doi:10.1214/aoms/1177703871 JSTOR:2238346.
David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case II. In: The Annals of Mathematical Statistics, vol. 36, 1965, S. 454–456, doi:10.1214/aoms/1177700155 JSTOR:2238150.
Lucien Le Cam: Asymptotic Methods in Statistical Decision Theory. Springer, 1986, ISBN 0-387-96307-3, S. 336 und 618–621.
Lorraine Schwartz: On Bayes procedure. In: Z. Wahrscheinlichkeitstheorie, 1965, No. 4, S. 10–26.

Weblinks

Bernstein-von Mises Theorem (Encyclopedia Mathematica)
Subhashis Ghosal: A review of consistency and convergence of posterior distribution. (PDF; 118 kB) 2000.

Einzelnachweise

↑ A.W. van der Vaart: Asymptotic Statistics. Cambridge University Press, 1998, ISBN 0-521-78450-6, 10.2 Bernstein-von-Mises-Theorem.
↑ Freedman, op. cit.
↑ Diaconis, Freedman, op. cit.
↑ Joseph L. Doob: Applications of the theory of martingales. In: Colloq. Intern. du C.N.R.S (Paris). Band 13, 1949, S. 22–28.
↑ Persi Diaconis, David A. Freedman: On the consistency of Bayes estimates. In: The Annals of Statistics. Band 14, 1986, S. 1–26, JSTOR:2241255.
↑ A. W. F. Edwards: Likelihood. Johns Hopkins University Press, Baltimore 1992, ISBN 0-8018-4443-6.

[1] A.W. van der Vaart: Asymptotic Statistics. Cambridge University Press, 1998, ISBN 0-521-78450-6, 10.2 Bernstein-von-Mises-Theorem.

[2] Freedman, op. cit.

[3] Diaconis, Freedman, op. cit.

[4] Joseph L. Doob: Applications of the theory of martingales. In: Colloq. Intern. du C.N.R.S (Paris). Band 13, 1949, S. 22–28.

[5] Persi Diaconis, David A. Freedman: On the consistency of Bayes estimates. In: The Annals of Statistics. Band 14, 1986, S. 1–26, JSTOR:2241255.

[6] A. W. F. Edwards: Likelihood. Johns Hopkins University Press, Baltimore 1992, ISBN 0-8018-4443-6.

[1]

[2]

[3]

[4]

[5]

[6]