Exponentialfamilie

Wahrscheinlichkeitsverteilung
(Weitergeleitet von Kanonische Statistik)

In der Wahrscheinlichkeitstheorie und in der Statistik ist eine Exponentialfamilie (oder exponentielle Familie) eine Klasse von Wahrscheinlichkeitsverteilungen einer ganz bestimmten Form. Man wählt diese spezielle Form, um bestimmte Rechenvorteile auszunutzen oder aus Gründen der Verallgemeinerung. Exponentialfamilien sind in gewissem Sinne sehr natürliche Verteilungen und eine dominierte Verteilungsklasse, was viele Vereinfachungen in der Handhabung mit sich bringt. Das Konzept der Exponentialfamilien geht zurück auf[1] E. J. G. Pitman,[2] G. Darmois,[3] und B. O. Koopman[4] (1935–6).

Einparametrige Exponentialfamilie

Bearbeiten

Definition

Bearbeiten

Eine Familie von Wahrscheinlichkeitsmaßen   auf dem Messraum   mit   heißt eine einparametrige Exponentialfamilie, wenn es ein σ-endliches Maß   gibt, so dass alle   eine Dichtefunktion der Gestalt

 

bezüglich   besitzen. Meist handelt es sich bei  

Dabei ist

 

eine messbare Funktion, die natürliche suffiziente Statistik oder kanonische Statistik der Exponentialfamilie. Ebenso ist

 

eine messbare Funktion. Die Funktion

 

wird Normierungsfunktion oder Normierungskonstante genannt und garantiert, dass die in der Definition eines Wahrscheinlichkeitsmaßes geforderte Normierung gegeben ist. Des Weiteren ist

 

eine beliebige reelle Funktionen des Parameters.

Alternative Definitionen

Bearbeiten

Die Definitionen einer Exponentialfamilie unterscheiden sich meist in den folgenden Punkten:

  • Nicht alle Autoren schreiben die Funktionen   und   als Produkt vor die Exponentialfunktion, teilweise stehen sie auch als Summe in der Exponentialfunktion, manchmal mit negativem Vorzeichen. So finden sich die Definitionen
 .
Diese unterschiedlich definierten Funktionen lassen sich meist problemlos ineinander umrechen. Dennoch ist bei einer Angabe der Funktionen   und   darauf zu achten, wie genau diese definiert werden.
  • Manche Autoren versehen die Dichtefunktion noch mit einer charakteristischen Funktion bezüglich einer Menge  . Die Dichtefunktion ist dann gegeben als
 .
Dabei soll die Wahl der Menge   unabhängig vom Parameter   sein. Diese Definition ermöglicht es, gewisse Kriterien, die auf der Positivität der Dichtefunktion aufbauen, allgemeiner zu fassen. Solche Kriterien finden sich beispielsweise in regulären statistischen Modellen.

Beispiele

Bearbeiten

Binomialverteilung

Bearbeiten

Ein elementares Beispiel sind die Binomialverteilungen auf   mit  . Sie besitzen die Wahrscheinlichkeitsfunktion (beziehungsweise die Dichtefunktion bezüglich des Zählmaßes)

 

mit  . Somit ist die Binomialverteilung Teil einer Exponentialfamilie und wird charakterisiert durch

 .

Exponentialverteilung

Bearbeiten

Ein weiteres Beispiel sind die Exponentialverteilungen. Sie sind auf   definiert mit   und besitzen die Wahrscheinlichkeitsdichtefunktion

 

Somit ist in diesem Fall

 .

Zu beachten ist, dass eine einparametrige Exponentialfamilie durchaus eine multivariate Verteilung sein kann. Einparametrig bedeutet hier nur, dass die Dimensionalität des „Formparameters“   eins ist. Ob die definierte Wahrscheinlichkeitsverteilung univariat oder multivariat ist, hängt von der Dimensionalität des Grundraumes   ab, an die keine Anforderungen gestellt sind.

k-parametrige Exponentialfamilie

Bearbeiten

Definition

Bearbeiten

Eine Familie von Wahrscheinlichkeitsmaßen   auf dem Messraum   mit   heißt eine k-parametrige Exponentialfamilie, wenn es ein σ-endliches Maß   gibt, so dass alle   die Dichtefunktion

 

bezüglich   besitzen. Oftmals wird der Parameter   geschrieben. Dabei sind

 

messbare Funktionen und

 

Funktionen des k-dimensionalen Parameters  . Hier wird wie im einparametrigen Fall die Funktion   die natürliche suffiziente Statistik oder die kanonische Statistik genannt.

Beispiel

Bearbeiten

Normalverteilung

Bearbeiten

Klassisches Beispiel für eine zweiparametrige Exponentialfamilie ist die Normalverteilung. Es ist   sowie  . Jedes   ist dann von der Form  . Mit den Parametrisierungen   sowie   erhält man aus der üblichen Dichtefunktion der Normalverteilung

 .

Somit ist die Normalverteilung Teil einer zweiparametrigen Exponentialfamilie mit

 .

Auch hier gilt wieder: eine k-parametrige Exponentialfamilie kann durchaus eine Wahrscheinlichkeitsverteilung in nur einer Dimension beschreiben. Die Zahl k gibt nur die Anzahl der Formparameter an, nicht die Dimensionalität der Verteilung. So ist im obigen Beispiel die Normalverteilung eindimensional, aber Teil einer zweiparametrigen Exponentialfamilie.

Gammaverteilung

Bearbeiten

Ein weiteres Beispiel für eine zweiparametrige Exponentialfamilie ist die Gammaverteilung.

Alternative Definitionen

Bearbeiten

Für die k-parametrige Exponentialfamilie existieren dieselben Varianten in der Definition wie bereits im einparametrigen Fall besprochen wurden. Außerdem fordern manche Autoren noch zusätzlich in der Definition, dass folgende beide Eigenschaften gelten:

  1. Die Funktionen   sind linear unabhängig
  2. Die Funktionen   sind für alle   fast sicher linear unabhängig.

Mit diesen zusätzlichen Forderungen lassen sich beispielsweise Aussagen über die Kovarianzmatrix von   treffen.

Die natürliche Parametrisierung

Bearbeiten

Sowohl im einparametrigen als auch im k-parametrig Fall sagt man, dass die Exponentialfamilie in der natürlichen Parametrisierung vorliegt, wenn   ist.

Eigenschaften

Bearbeiten

Suffizienz

Bearbeiten

Für die Exponentialfamilie ist die kanonische Statistik   immer eine suffiziente Statistik. Dies folgt direkt aus dem Neyman-Kriterium für die Suffizienz. Daher wird   auch als natürliche suffiziente Statistik bezeichnet.

Score-Funktion

Bearbeiten

Für eine einparametrige Exponentialfamilie ist die Score-Funktion gegeben durch

 .

Bei natürlicher Parametrisierung vereinfacht sich dies zu

 .

Fisher-Information

Bearbeiten

Aus der Score-Funktion lässt sich die Fisher-Information ableiten. Sie lautet

 .

Bei natürlicher Parametrisierung ergibt sich für die Fisher-Information somit

 .

Rolle in der Statistik

Bearbeiten

Klassisches Schätzen: Suffizienz

Bearbeiten

Nach dem Pitman-Koopman-Darmois-Theorem gibt es unter Wahrscheinlichkeitsfamilien, deren Träger nicht von den Parametern abhängt, nur bei den Exponentialfamilien suffiziente Statistiken, deren Dimension bei wachsender Stichprobengröße beschränkt bleibt. Etwas ausführlicher: Seien   unabhängig und identisch verteilte Zufallsvariablen, deren Wahrscheinlichkeitsverteilungsfamilie bekannt ist. Nur wenn diese Familie eine Exponentialfamilie ist, gibt es eine (möglicherweise vektorielle) suffiziente Statistik  , deren Anzahl skalarer Komponenten nicht ansteigt, sollte der Stichprobenumfang   erhöht werden.

Bayessches Schätzen: konjugierte Verteilungen

Bearbeiten

Exponentialfamilien sind auch für die bayessche Statistik wichtig. In der bayesschen Statistik wird eine A-priori-Wahrscheinlichkeitsverteilung mit einer Likelihood-Funktion multipliziert und dann normiert, um auf die A-posteriori-Wahrscheinlichkeitsverteilung zu kommen (siehe Satz von Bayes). Falls die Likelihood zu einer Exponentialfamilie gehört, existiert auch eine Familie konjugierter A-priori-Verteilungen, die oft ebenfalls eine Exponentialfamilie ist. Eine konjugierte A-priori-Verteilung   für den Parameter   einer Exponentialfamilie ist definiert durch

 

wobei   und   Hyperparameter sind (Parameter, die im Rahmen des Modells nicht geschätzt, sondern festgelegt werden).

Im Allgemeinen gehört die Likelihood-Funktion keiner Exponentialfamilie an, deshalb existiert im Allgemeinen auch keine konjugierte A-priori-Verteilung. Die A-posteriori-Verteilung muss dann mit numerischen Methoden berechnet werden.

Hypothesentests: gleichmäßig bester Test

Bearbeiten

Die einparametrige Exponentialfamilie zählt zu den Verteilungsklassen mit monotonem Dichtequotienten in der kanonischen Statistik  , wenn   monoton wachsend ist. Daher existiert für das einseitige Testproblem mit

 

ein gleichmäßig bester Test zu einem vorgegebenen Niveau  . Eine explizite Beschreibung des Tests mit skizzierter Herleitung aus dem Neyman-Pearson-Lemma findet sich hier.

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Erling Andersen: Sufficiency and Exponential Families for Discrete Sample Spaces. In: Journal of the American Statistical Association. 65. Jahrgang, Nr. 331, September 1970, S. 1248–1255, doi:10.2307/2284291.
  2. E. Pitman: Sufficient statistics and intrinsic accuracy. In: Proc. Camb. phil. Soc. 32. Jahrgang, 1936, S. 567–579.
  3. G. Darmois: Sur les lois de probabilites a estimation exhaustive. In: C.R. Acad. sci. Paris. 200. Jahrgang, 1935, S. 1265–1266 (französisch).
  4. B Koopman: On distribution admitting a sufficient statistic. In: Trans. Amer. math. Soc. 39. Jahrgang, 1936, S. 399–409, doi:10.2307/1989758.