Normalverteilungsmodell

statistisches Modell

Als Normalverteilungsmodell[1] oder Gauß’sches Produktmodell[2] bezeichnet man in der Statistik ein spezielles statistisches Modell, das sich durch einfache Modellannahmen auszeichnet. Dabei soll einerseits die Erhebung der Daten stochastisch unabhängig voneinander sein, andererseits sollen die Daten alle normalverteilt sein, je nach Präzisierung mit einem oder zwei unbekannten Parametern.

Die Bedeutung des Normalverteilungsmodells ergibt sich sowohl aus der Tatsache, dass es ein sehr gut untersuchtes Modell ist, für das gute Parameterschätzer, Konfidenzintervalle und Tests angegeben werden können, als auch aus der Sonderstellung der Normalverteilung, die sich nach dem zentralen Grenzwertsatz immer dann einstellt, wenn sich viele, voneinander unabhängige zufällige Einflüsse überlagern.

Es lassen sich drei Fälle unterscheiden:

  • Man geht von einem bekannten Erwartungswert der Normalverteilungen aus und versucht, Aussagen über die Varianz zu treffen. Beispiel hierfür wäre die Eichung einer Waage mit einem vorgegebenen genormten Gewicht.
  • Man geht von einer bekannten Varianz der Normalverteilungen aus und versucht, Aussagen über den Erwartungswert zu treffen. Dieser Fall würde beispielsweise eintreten bei einer Messung mit einem Messinstrument bekannter Ungenauigkeit, die vom Hersteller angegeben ist.
  • Sowohl Varianz als auch Erwartungswert sind unbekannt. Ein Beispiel für diesen Fall wäre die Schätzung der Schuhgröße von Männern: Weder ist klar, welche Schuhgröße ein Mann „im Mittel“ hat, noch ist klar, wie sehr die Schuhgrößen streuen.

Für die drei Fälle stehen jeweils unterschiedliche Methoden zur Verfügung.

Erwartungswert bekannt und Varianz unbekannt Bearbeiten

Bei bekanntem Erwartungswert und unbekannter Varianz werden die Rahmenbedingungen wie folgt formalisiert: Das statistische Modell ist gegeben durch

 ,

wobei die Verteilungsklasse genauer als

 

definiert ist. Hierbei ist   der bekannte Erwartungswert. Mit   sei das n-fache Produktmaß des Wahrscheinlichkeitsmaßes   bezeichnet. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Die Verteilungsklasse ist Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte   der Normalverteilung besitzt eine Darstellung als

  mit   und  .

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

 .

Geschätzt werden soll die unbekannte Varianz, die zu schätzende Parameterfunktion ist somit gegeben durch

 .

Parameterschätzung Bearbeiten

Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern als Schätzer für die unbekannte Varianz die (nicht korrigierte)Stichprobenvarianz

 .

Sie ist erwartungstreu. Die Suffizienz dieser Schätzfunktion folgt aus der Darstellung der Normalverteilung als Teil der Exponentialfamilie und der entsprechenden kanonischen Statistik. Außerdem ist der Schätzer auch vollständig[3] und somit nach dem Satz von Lehmann-Scheffé ein gleichmäßig bester erwartungstreuer Schätzer.

Konfidenzintervalle Bearbeiten

Konfidenzintervalle für die unbekannte Varianz beruhen auf der Pivot-Statistik

 .

Sie ist Chi-Quadrat-verteilt mit   Freiheitsgraden, also  . Ein beidseitiges Konfidenzintervall zum Konfidenzniveau   ist somit gegeben durch[4]

 .

Hierbei ist   das  -Quantil der Chi-Quadrat-Verteilung mit   Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Chi-Quadrat-Verteilung nachgeschlagen werden.

Testen Bearbeiten

Für Einstichprobenprobleme existiert der Chi-Quadrat-Test zur Prüfung einer Varianz, für Zweistichprobenprobleme der F-Test zum Vergleich zweier Varianzen.[5]

Varianz bekannt und Erwartungswert unbekannt Bearbeiten

Ist die Varianz bekannt und der Erwartungswert unbekannt, so werden die Rahmenbedingungen wie folgt formalisiert: das statistische Modell gegeben durch

 ,

wobei die Verteilungsklasse genauer als

 

definiert ist. Hierbei bezeichnet   die bekannte Varianz. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Genauso ist die Verteilungsklasse ein Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte   der Normalverteilung besitzt eine Darstellung als

  mit   und  .

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

 

Geschätzt werden soll der unbekannten Erwartungswert, die zu schätzende Parameterfunktion ist somit gegeben durch

 .

Parameterschätzung Bearbeiten

Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern als Schätzfunktion für den Erwartungswert das Stichprobenmittel

 

der Stichprobe. Dabei folgt der Maximum-Likelihood-Schätzer beispielsweise durch Bestimmen des Maximums der Log-Likelihood-Funktion, der Momentenschätzer folgt direkt aus der Tatsache, dass es sich bei dem arithmetischen Mittel um das erste empirische Moment handelt und mit dem Erwartungswert das erste stochastische Moment geschätzt werden soll.

Der Schätzer ist erwartungstreu. Da es sich um außerdem um die kanonische Statistik der Exponentialfamilie handelt, ist er auch suffizient. Außerdem ist der Schätzer auch vollständig[3] und somit nach dem Satz von Lehmann-Scheffé ein gleichmäßig bester erwartungstreuer Schätzer.

Konfidenzintervalle Bearbeiten

Die Konfidenzintervalle bei bekannter Varianz   beruhen auf der Pivotstatistik[6]

 .

Sie ist standardnormalverteilt, also   für alle  .

Es bezeichne   das  -Quantil der Standardnormalverteilung. Dieses kann der Quantiltabelle der Standardnormalverteilung entnommen werden. Dann ist ein rechtsseitig unbeschränktes Konfidenzintervall für den unbekannten Erwartungswert zum Konfidenzniveau   gegeben durch

 .

Analog ergibt sich ein linksseitig unbeschränktes Konfidenzintervall für den unbekannten Erwartungswert zum Konfidenzniveau   durch

 .

Ein zweiseitiges Konfidenzintervall zum Konfidenzniveau   ist gegeben durch

 .

Testen Bearbeiten

Für Einstichprobenprobleme existiert der Einstichproben Gauß-Test und der Einstichproben-t-Test, für Zweistichprobenprobleme der Zweistichproben Gauß-Test.[5]

Varianz und Erwartungswert unbekannt Bearbeiten

Sind Erwartungswert und Varianz unbekannt, so werden die Rahmenbedingungen wie folgt formalisiert: das statistische Modell ist gegeben durch

 ,

wobei die Verteilungsklasse genauer als

 

definiert ist. Es handelt sich hierbei dann um ein parametrisches Modell und ein Produktmodell. Die Verteilungsklasse ist Teil der zweiparametrigen Exponentialfamilie, da für die Wahrscheinlichkeitsdichte der Normalverteilung

  mit   und  

gilt.

Geschätzt werden soll Erwartungswert und Varianz, die zu schätzenden Parameterfunktionen sind somit gegeben durch

  und  .

Parameterschätzung Bearbeiten

Die Maximum-Likelihood-Methode und die Momentenmethode liefern als Schätzfunktion für den unbekannten Erwartungswert das Stichprobenmittel

 .

Dieser Schätzer ist erwartungstreu.

Sowohl die Maximum-Likelihood-Methode und die Momentenmethode liefern die (nicht korrigierte)Stichprobenvarianz

 

als Schätzfunktion für die unbekannte Varianz. Sie ist nicht erwartungstreu, sondern nur asymptotisch Erwartungstreu. Daher führt man die Bessel-Korrektur ein und erhält somit als erwartungstreuen Schätzer die korrigierte Stichprobenvarianz

 .

Sie ist eine erwartungstreue Schätzfunktion für die unbekannte Varianz.

Konfidenzintervalle Bearbeiten

Konfidenzintervalle für den Erwartungswert, also für  , beruhen in diesem Modell auf der Pivotstatistik[6]

 ,

wobei

 

ist. Als einseitiges Konfidenzintervall für den Erwartungswert zum Konfidenzniveau   erhält man damit

 ,

als zweiseitiges Konfidenzintervall für den Erwartungswert zum Konfidenzniveau   erhält man

 

Hierbei ist   das  -Quantil der Studentschen t-Verteilung mit n Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Studentschen t-Verteilung nachgeschlagen werden.

Konfidenzintervalle für die Varianz, also für  , beruhen auf der Pivotstatistik[6]

 .

Sie liefert das einseitige Konfidenzintervall für die Varianz zum Konfidenzniveau  

 ,

und das zweiseitige Konfidenzintervall für die Varianz zum Konfidenzniveau  

 

Hierbei ist   das   -Quantil der Chi-Quadrat-Verteilung mit   Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Chi-Quadrat-Verteilung nachgeschlagen werden.

Testen Bearbeiten

Für Einstichprobenprobleme existiert für die Varianz der Chi-Quadrat-Test zur Prüfung einer Varianz. Für Zweistichprobenprobleme existiert für die Varianz der F-Test zum Vergleich zweier Varianzen, für den Erwartungswert siehe Behrens-Fisher-Problem.[5]

Einzelnachweise Bearbeiten

  1. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 96, doi:10.1007/978-3-642-41997-3.
  2. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 205, doi:10.1515/9783110215274.
  3. a b Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 110–111, doi:10.1007/978-3-642-41997-3.
  4. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 143–144, doi:10.1007/978-3-642-17261-8.
  5. a b c Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 196, doi:10.1007/978-3-642-41997-3.
  6. a b c Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 231–232, doi:10.1007/978-3-642-41997-3.