Satz von Bernstein-von-Mises

Mathematischer Lehrsatz
(Weitergeleitet von Bernstein-von-Mises-Satz)

Der Satz von Bernstein-von-Mises ist ein nach Sergei Bernstein und Richard von Mises benannter Lehrsatz der mathematischen Statistik. Seine anschauliche Bedeutung besteht darin, dass bayessches Lernen, wie es zum Beispiel bei Bayesschen Netzen angewandt wird, auf lange Sicht zu den richtigen Ergebnissen führt.

Der Satz besagt, dass sich in parametrischen Modellen die A-posteriori-Verteilung im Regelfall unabhängig von der A-priori-Verteilung asymptotisch (bei großer Anzahl von Beobachtungen) um den wahren Parameter (Konsistenz des bayesschen Schätzers) konzentriert. Er stellt damit eine wichtige Verbindung zwischen bayesscher Statistik und frequentistischer Statistik her.

Die entsprechend zentrierte und skalierte A-Posteriori-Verteilung ist nach dem Satz von Bernstein-von-Mises sogar asymptotisch eine Normalverteilung mit der inversen Fisher-Informations-Matrix als Kovarianzmatrix (asymptotische Effizienz des bayesschen Schätzers):

mit als wahrer Parameter. Demnach führen in parametrischen Modellen optimale frequentistische und bayessche Ansätze asymptotisch zu qualitativ gleichen Ergebnissen.

Also ist die A-posteriori-Verteilung für die unbekannten Größen in einem Problem in gewissem Sinne von der A-priori-Verteilung unabhängig, sobald die durch die Stichprobe gewonnene Informationsmenge groß genug ist.[1]

Anwendungsbeispiel

Bearbeiten

Im Folgenden sollen die Anwendung des Satzes und die typische Vorgehensweise der bayesschen Inferenz anhand eines einfachen Beispiels illustriert werden: Beobachtet wird eine Zufallsvariable   und deren Realisierung anhand eines Satzes von Messdaten   aus dem Stichprobenraum. Diese Daten sollen durch ein stochastisches Modell mit unbekanntem Parameter  , welcher auch vektorwertig sein kann, beschrieben werden. Bevor die Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher, und ein gemeinsames stochastisches Modell für   ist sinnvoll. In dieser Interpretation ist auch der Parameter   eine Zufallsvariable mit einer Prior-Verteilung  . Diese ist offensichtlich vor der tatsächlichen Datenmessung noch unbekannt, und es muss eine „vernünftige“ A-priori-Annahme über sie getroffen werden. Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert. Die gesamte verfügbare Information über   wird durch die Posterior-Verteilung   beschrieben. Diese ist nach dem Satz von Bayes gegeben als

 ,

wobei der Ausdruck   die sogenannte Likelihood-Funktion darstellt und die Verteilung von   bei gegebenem Parameter   beschreibt. Es ist zu erhoffen, dass die Posterior-Verteilung   eine bessere und genauere Aussage über   ermöglicht als die ursprüngliche naive Prior-Verteilung  . Dieser letzte Schritt wird gewöhnlich als bayessches Lernen bezeichnet und ist ein wesentlicher Schritt beim Lernen in neuronalen Netzen. Nehmen wir nun diese letzte Posterior-Verteilung   als neue Prior-Verteilung an, erheben einen neuen weiteren Datensatz und wiederholen das obige Vorgehen, erhalten wir nach einem weiteren bayesschen Lernschritt eine weitere, aktualisierte Posterior-Verteilung. Diese enthält nun Informationen von zwei Datensätzen und sollte damit eine noch bessere und genauere Aussage über   liefern. Dass die wiederholte Anwendung dieses bayesschen Lernens sich erfolgreich der tatsächlichen Verteilung von   annähert, ist Aussage des Bernstein-von-Mises-Theorems. Die Konvergenz dieses Verfahrens gegen die tatsächliche Verteilung von   erfolgt unter gewissen Voraussetzungen fast sicher und ist unabhängig von der Prior-Verteilung.

Formulierung des Satzes

Bearbeiten

Für eine Parametermenge   sei   ein dominiertes parametrisches statistisches Modell, d. h. für jedes   hat man   mit einem Maß   auf  . Dabei sei   der Parameterwert, den man tatsächlich schätzen will.

Wir nehmen an, dass   differenzierbar im geometrischen Mittel ist, d. h. dass es einen Vektor aus   Funktionen   gibt (den Score in  ), so dass für   :

 

Der Score ist zentriert und besitzt eine Varianz  , die Fisher-Information. Wir nehmen an, dass diese Matrix invertierbar ist.

Um den Satz von Bayes anwenden zu können, nehmen wir an, dass   einem a priori-Dichtegesetz   genügt, welches wir stetig und positiv in   annehmen.

Schließlich nehmen wir an, dass es für jedes   eine Folge statistischer Tests   gibt, so dass   und  .

Unter diesen Annahmen besagt der Satz dann, dass die mit dem Satz von Bayes berechnete a posteriori-Verteilung von   mit den Beobachtungen   „asymptotisch nahe“ in Wahrscheinlichkeit zu einer Normalverteilung ist, deren Varianz das Inverse der Fischer-Information ist.

Mathematisch beschreibt man das mit Hilfe der totalen Variation   durch die Beziehung

 

mit  .

Der Satz von Bernstein und von Mises ist zufriedenstellend, wenn angenommen wird, dass der Parameter durch einen Zufallsmechanismus ausgewählt wird, dessen Wahrscheinlichkeitsgesetz bekannt ist. Andererseits ist es in manchen Fällen erforderlich, die Ausnahme-Nullmenge zu identifizieren. Wenn der Parameter beispielsweise fest, aber unbekannt ist und der Prior als bequeme Methode zur Berechnung von Schätzungen verwendet wird, ist es wichtig zu wissen, für welche Nullmenge die Methode scheitert. Insbesondere wäre es wünschenswert, den Prior so zu wählen, dass die Ausnahme-Nullmenge tatsächlich leer ist. Der einfachst mögliche Fall dieses Problems, nämlich der von unabhängigen, identisch verteilten, diskreten Beobachtungen wird in [2] diskutiert.

Bayes’sche Schätzungen können inkonsistent sein, wenn der zugrundeliegende Mechanismus eine unendliche Menge möglicher Ausgänge zulässt. Es gibt jedoch Klassen von Prioren („tailfree priors“ und „Dirichlet priors“), für die Konsistenz von Prioren bewiesen werden kann. Für andere Prioren, beispielsweise die in [3] diskutierten, erhält man aber inkonsistente Schätzungen.

Geschichte

Bearbeiten

Das Theorem wurde benannt nach Richard von Mises und Sergei Natanowitsch Bernstein, obwohl der erste strenge Beweis durch Joseph L. Doob im Jahre 1949 für Zufallsvariablen mit endlichen Wahrscheinlichkeitsräumen gegeben wurde.[4] Später haben Lucien Le Cam, seine Doktorandin Lorraine Schwarz, die Mathematiker David A. Freedman und Persi Diaconis das Theorem und seine Voraussetzungen verallgemeinert. Auf ein bemerkenswertes Resultat von David A. Freedman aus dem Jahre 1965 sei hingewiesen: das Bernstein-von-Mises-Theorem ist fast sicher „nicht anwendbar“, wenn die Zufallsvariable in einem unendlich abzählbaren Wahrscheinlichkeitsraum lebt. In anderen Worten ausgedrückt, konvergiert in diesem Falle für fast alle anfänglichen Prior-Verteilungen das Verfahren nicht gegen die wahre Verteilung. Der anschauliche Grund hierfür liegt darin, dass die in einem jeweiligen bayesschen Lernschritt gelernte Information vom Maß 0 ist. Eine negative Folge hiervon zeigt sich bereits bei hochdimensionalen, aber endlichen Problemen, wie Persi Diaconis und David A. Freedman in ihrer Publikation von 1986 im letzten Satz der Zusammenfassung anmerken:

“Unfortunately, in high-dimensional problems, arbitrary details of the prior can really matter; indeed, the prior can swamp the data, no matter how much data you have. That is what our examples suggest, and that is why we advise against the mechanical use of Bayesian nonparametric techniques.”

„Leider sind in hoch-dimensionalen Problemen die genauen Details der Prior-Verteilung wirklich wichtig. Denn tatsächlich kann der Prior die Daten in die falsche Richtung abdrängen‘, egal wie viele Daten auch immer zur Verfügung stehen. Dies ist es, was unsere Beispiele nahelegen, und warum wir davon abraten, die bayesschen nicht-parametrischen Techniken einfach mechanisch anzuwenden.“[5]

Der bekannte Statistiker A. W. F. Edwards bemerkte einmal ähnlich: „Manchmal wird zur Verteidigung des bayesschen Konzepts gesagt, dass die Wahl der Prior-Verteilung in der Praxis unerheblich ist, weil sie die Posterior-Verteilung kaum beeinflußt, wenn es genug Daten gibt. Je weniger zu dieser ‚Verteidigung‘ gesagt wird, desto besser.“[6]

Literatur

Bearbeiten
  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case. In: The Annals of Mathematical Statistics, vol. 34, 1963, S. 1386–1403, doi:10.1214/aoms/1177703871 JSTOR:2238346.
  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case II. In: The Annals of Mathematical Statistics, vol. 36, 1965, S. 454–456, doi:10.1214/aoms/1177700155 JSTOR:2238150.
  • Lucien Le Cam: Asymptotic Methods in Statistical Decision Theory. Springer, 1986, ISBN 0-387-96307-3, S. 336 und 618–621.
  • Lorraine Schwartz: On Bayes procedure. In: Z. Wahrscheinlichkeitstheorie, 1965, No. 4, S. 10–26.
Bearbeiten

Einzelnachweise

Bearbeiten
  1. A.W. van der Vaart: Asymptotic Statistics. Cambridge University Press, 1998, ISBN 0-521-78450-6, 10.2 Bernstein-von-Mises-Theorem.
  2. Freedman, op. cit.
  3. Diaconis, Freedman, op. cit.
  4. Joseph L. Doob: Applications of the theory of martingales. In: Colloq. Intern. du C.N.R.S (Paris). Band 13, 1949, S. 22–28.
  5. Persi Diaconis, David A. Freedman: On the consistency of Bayes estimates. In: The Annals of Statistics. Band 14, 1986, S. 1–26, JSTOR:2241255.
  6. A. W. F. Edwards: Likelihood. Johns Hopkins University Press, Baltimore 1992, ISBN 0-8018-4443-6.