Schätzmethode (Statistik)

Schätzmethoden (auch Schätzverfahren) werden in der mathematischen Statistik gebraucht. Man verwendet sie, um Schätzfunktionen für unbekannte Parameter einer statistischen Grundgesamtheit zu konstruieren.

Drei klassische Schätzmethoden sind unter anderem

Bei allen drei Methoden haben Ausreißer einen sehr starken Einfluss auf das Ergebnis. Die Momentenmethode kann auch als Spezialfall des Substitutionsprinzips aufgefasst werden. Auch Methoden basierend auf Quantilen werden häufig verwendet und sind oft robuster (z. B. kann der Median oft den Mittelwert als Schätzer ersetzen).

Die verschiedenen Verfahren sind zum Teil konkurrierend, zum Teil auch ergänzend.

Maximum-Likelihood-Methode

Man betrachtet hier die Beobachtungen $x_{i}$ als Stichproben-Realisierungen von n, in der Regel stochastisch unabhängigen, Zufallsvariablen $X_{i}$ mit einem bekannten Verteilungstyp. Die Parameter der Verteilung hängen vom gesuchten Parameter ab und der Schätzwert des Parameters ergibt sich als der Wert, der mit größter Plausibilität die beobachtete Stichprobe hervorbringen würde.

Der Vorteil der Maximum-Likelihood-Methode (Methode der größten Plausibilität) liegt in den Eigenschaften der Schätzfunktion. Zum einen ist sie oft konsistent (d. h. je mehr Beobachtungen man in der Stichprobe hat, desto genauer kann man den gesuchten Parameter schätzen) und asymptotisch effizient (d. h. für große Stichprobenumfänge gibt es keine bessere Schätzfunktion). Man kann sehr allgemein Signifikanztests für Modellvergleiche formulieren.

Ein wesentlicher Nachteil ist es, dass man den Verteilungstyp der Stichprobenvariablen kennen muss. Irrt man sich hierbei, kann die Schätzfunktion vollkommen falsche Werte liefern. Des Weiteren muss zur Auffindung des Parameters meist eine numerische Maximierung durchgeführt werden, die unter Umständen in einem lokalen statt globalen Maximum landet.

Da jedoch die Vorteile überwiegen, dürfte die Maximum-Likelihood-Methode die am meisten genutzte Schätzmethode sein. Bei einer Normalverteilung sind die Resultate nach der Momentenmethode und nach Maximum-Likelihood-Methode fast identisch; die Momentenmethode liefert einen etwas kleineren systematischen Fehler hinsichtlich der Standardabweichung. Bei der Maximum-Likelihood-Methode sind diese Fehler generell bei kleinem Stichprobenumfang oft nicht vernachlässigbar.

Methode der kleinsten Quadrate

Hier betrachtet man ebenfalls die Beobachtungen $x_{i}$ als Realisierungen von $n$ Zufallsvariablen $X_{i}$ . Hierbei hängt der Erwartungswert $\operatorname {E} (X_{i})$ direkt oder durch eine bekannte Funktion vom gesuchten Parameter sowie einer Störgröße ab. Daher bestimmt man den gesuchten Parameter so, dass die Summe der quadrierten Störgrößen möglichst klein wird.

Das klassische Beispiel ist die einfache lineare Regression: die Regressiongerade $y=\beta _{0}+\beta _{1}x$ mit den Parametern $\beta _{0}$ und $\beta _{1}$ wird von einer Störgröße überlagert. Man beobachtet also $(x_{i},y_{i}=\beta _{0}+\beta _{1}x+\varepsilon _{i})$ . Für die Zufallsvariable $Y_{i}$ gilt: $\operatorname {E} (Y_{i})=\beta _{0}+\beta _{1}x_{i}$ und $\operatorname {Var} (Y_{i})=\sigma _{\varepsilon }^{2}$ . Nun berechnet man die Summe der quadrierten Störgrößen $\sum \nolimits _{i=1}^{n}\left(y_{i}-(\beta _{0}+\beta _{1}x_{i})\right)^{2}$ und minimiert sie, um Schätzwerte für $\beta _{0}$ und $\beta _{1}$ zu finden. Die Anpassungsgüte der Schätzung kann mit dem Bestimmtheitsmaß quantifiziert werden.

Der Vorteil der Methode der kleinsten Quadrate ist, dass keine Annahme über den Verteilungstyp gemacht werden muss, sondern nur bzgl. des Zusammenhangs zwischen dem Erwartungswert und dem unbekannten Parameter. Damit ist diese Schätzmethode in einem breiteren Problemkreis anwendbar.

Der Vorteil ist jedoch auch ein Nachteil. Da nur Information über den Erwartungswert benutzt wird, und nicht über die Verteilung wie bei der Maximum-Likelihood-Methode, weisen die Schätzfunktionen nicht so gute Eigenschaften wie Schätzfunktionen aus der Maximum-Likelihood-Methode auf. Falls der Erwartungswert nicht linear vom Parameter abhängt, müssen auch bei dieser Methode im Allgemeinen numerische Näherungsverfahren zur Bestimmung des Minimums verwendet werden.

Beispiel

In einem neuen Spiel kann man 1,00 Euro mit Wahrscheinlichkeit $p$ verlieren, 1,00 Euro mit Wahrscheinlichkeit $1-2p$ gewinnen und mit Wahrscheinlichkeit $p$ weder Geld verlieren noch gewinnen. Das Spiel wird nun sechsmal gespielt mit dem Ergebnis: −1 EUR, 1 EUR, −1 EUR, 0 EUR, 1 EUR, 1 EUR. Wie groß ist der Wert von $p$ ?

Maximum-Likelihood-Methode

Nach der Maximum-Likelihood-Methode ergibt sich die Wahrscheinlichkeit für die beobachtete Stichprobe als

$P$	$(X_{1}=-1,X_{2}=1,X_{3}=-1,X_{4}=0,X_{5}=1,X_{6}=1)$
	$=p\cdot (1-2p)\cdot p\cdot p\cdot (1-2p)\cdot (1-2p)$
	$=p^{3}\cdot (1-2p)^{3}$ .

Die Maximierung ergibt dann einen Schätzwert $p_{ML}=1/4$ .

Methode der kleinsten Quadrate

Für die Methode der kleinsten Quadrate braucht man den Erwartungswert $\operatorname {E} (X_{i})=-1\cdot p+0\cdot p+1\cdot (1-2p)=1-3p$ , d. h. im Durchschnitt erwartet man $1-3p$ EUR Gewinn pro Spiel. Für jede Beobachtung berechnet man den quadrierten Fehler zwischen dem beobachteten Gewinn und dem erwarteten Gewinn pro Spiel und summiert diese:

$Q(p)$	$=$	$(-1-(1-3p))^{2}+(1-(1-3p))^{2}+(-1-(1-3p))^{2}$
		$+(0-(1-3p))^{2}+(1-(1-3p))^{2}+(1-(1-3p))^{2}$
	$=$	$9-30p+54p^{2}$

Die Minimierung ergibt dann einen Schätzwert $p_{KQ}=5/18$ .

Minimum-Chi-Quadrat-Methode

Die Minimum-Chi-Quadrat-Methode ist mit der Methode der kleinsten Quadrate verwandt. Jedoch wird dabei davon ausgegangen, dass die Zufallsvariablen $X_{i}$ diskret sind (das schließt auch klassierte Daten ein). Das Auffinden des Minimums der quadrierten Fehler wird schwierig, da der Minimierungsalgorithmus mit Unstetigkeitsstellen umgehen muss. Stattdessen betrachtet man die Zufallsvariablen $H_{j}$ , die Häufigkeit mit der die Merkmalsausprägung (oder Klasse) $x_{j}$ auftritt.

Kann man die erwarteten Häufigkeiten mit den gesuchten Parametern verbinden, so minimiert man die Teststatistik des Chi-Quadrat-Anpassungstests, um Schätzwerte für die gesuchten Parameter zu finden.

Beispiel

In einem Buch wurden zufällig sechs Sätze ausgewählt und gezählt, wie viele Nebensätze sie enthalten. Es ergab sich, dass drei Sätze keinen Nebensatz enthielten, zwei Sätze einen Nebensatz und nur ein Satz mehr als einen Nebensatz. Unterstellt man, dass die Nebensätze Poisson-verteilt sind, stellt sich die Frage, wie groß $\lambda$ ist, die mittlere Anzahl der Nebensätze pro Satz.

Maximum-Likelihood-Methode

Nach der Maximum-Likelihood-Methode ergibt sich die Wahrscheinlichkeit für die beobachtete Stichprobe als

$P$	$(X_{1}=0,X_{2}=0,X_{3}=0,X_{4}=1,X_{5}=1,X_{6}>1)$
	$=e^{-\lambda }\cdot e^{-\lambda }\cdot e^{-\lambda }\cdot \lambda e^{-\lambda }\cdot \lambda e^{-\lambda }\cdot \left(1-e^{-\lambda }-\lambda e^{-\lambda }\right)$
	$=\lambda ^{2}e^{-5\lambda }\left(1-e^{-\lambda }-\lambda e^{-\lambda }\right)$ .

Die Maximierung ergibt dann einen Schätzwert $\lambda _{ML}=0{,}8372$ .

Minimum-Chi-Quadrat-Methode

Für die Minimum-Chi-Quadrat-Methode braucht man die erwarteten Häufigkeiten: $H_{0}(\lambda )=ne^{-\lambda }$ , $H_{1}(\lambda )=n\lambda e^{-\lambda }$ und $H_{>1}(\lambda )=n\left(1-e^{-\lambda }-\lambda e^{-\lambda }\right)$

\chi ^{2}(\lambda )={\frac {(3-H_{0}(\lambda ))^{2}}{H_{0}(\lambda )}}+{\frac {(2-H_{1}(\lambda ))^{2}}{H_{1}(\lambda )}}+{\frac {(1-H_{>1}(\lambda ))^{2}}{H_{>1}(\lambda )}}

Die Minimierung ergibt dann einen Schätzwert $p_{CQ}=0{,}8369$ .

Momentenmethode

Man betrachtet hier die Beobachtungen $x_{i}$ als Stichproben-Realisierungen von n, in der Regel stochastisch unabhängigen, Zufallsvariablen $X_{i}$ mit einem bekannten Verteilungstyp. Die Momente $\operatorname {E} (X_{i}^{r})$ der jeweiligen Verteilung hängen von den Verteilungsparametern ab, die wiederum den gesuchten Parameter beinhalten, und man erhält Gleichungen zwischen den gesuchten Parametern und den Momenten. Die Momente können wiederum aus den Beobachtungsdaten geschätzt werden ( ${\tfrac {1}{n}}\sum _{i=1}x_{i}^{r}$ ) und man erhält ein Gleichungssystem, das nach den gesuchten Parametern aufgelöst werden kann. Die Lösung ist dann eine Schätzung des gesuchten Parameters.

Der Vorteil der Momentenmethode liegt in der einfachen Berechenbarkeit, auch wenn zur Lösung eines eventuell nicht-linearen Gleichungssystems ein numerisches Iterationsverfahren benutzt werden muss. Sie kann aber auch eingesetzt werden, wenn die Stichprobenvariablen $X_{i}$ nicht unabhängig sind. In einem solchen Fall kann die Schätzung mit einer Maximum-Likelihood-Methode sehr kompliziert werden.

Die einfache Berechenbarkeit ist aber auch der Nachteil, da nicht alle Informationen aus der Stichprobe ausgenutzt werden. Dies kann dazu führen, dass bei kleinen Stichproben Schätzwerte auftreten, die außerhalb des Parameterraums liegen (z. B. negative Werte für geschätzte Varianzen). Die Schätzfunktionen aus der Momentenmethode sind meist nicht effizient, d. h. für gegebenen Stichprobenumfang gibt es bessere Schätzfunktionen. Beispielsweise ist der Momentenschätzer weniger effizient bei einer Gleichverteilung als der nach der Maximum-Likelihood-Methode.

Manchmal wird bei komplexen Problemen die Momentenmethode eingesetzt, um Startwerte für die Parameter in der Maximum-Likelihood-Methode zu erhalten.

Beispiel

Der Lohn von Angestellten sei Pareto-verteilt ${\mathcal {P}}(k;1)$ im Intervall $[1;\infty )$ ( $1$ sei der Mindestlohn). Es wurde eine Stichprobe von drei Angestellten beobachtet, die jeweils das 1,2-, 1,5- und 1,8fache des Mindestlohnes verdienen. Gesucht ist der Parameter $k$ ; denn je größer $k$ desto geringer ist die Wahrscheinlichkeit für einen hohen Lohn: $P(X>x)={\tfrac {1}{x^{k}}}$ .

Maximum-Likelihood-Methode

Nach der Maximum-Likelihood-Methode ergibt sich die Likelihood-Funktion für die beobachtete Stichprobe als

$L(1{,}2;1{,}5;1{,}8)$	$=k\left({\frac {1}{1{,}2}}\right)^{k}\cdot k\left({\frac {1}{1{,}5}}\right)^{k}\cdot k\left({\frac {1}{1{,}8}}\right)^{k}$
	$=k^{3}\left({\frac {1}{1{,}2\cdot 1{,}5\cdot 1{,}8}}\right)^{k}$

Die Maximierung ergibt dann einen Schätzwert $k_{ML}=5{,}88$ , d. h. die Wahrscheinlichkeit mehr als das Doppelte des Mindestlohnes zu verdienen beträgt in diesem Modell knapp 1,7 %.

Momentenmethode

Für die Pareto-Verteilung ergibt sich $\operatorname {E} (X_{i})={\tfrac {k}{k-1}}$ (falls $k>1$ ). Der Erwartungswert wird geschätzt mit dem arithmetischen Mittel, d. h. es gilt

{\frac {1}{3}}(1{,}2+1{,}5+1{,}8)={\frac {k}{k-1}}

.

Auflösen der Gleichung ergibt dann einen Schätzwert $k_{MM}=3$ , d. h. die Wahrscheinlichkeit mehr als das Doppelte des Mindestlohnes zu verdienen beträgt in diesem Modell 12,5 %.

Siehe auch

Literatur

J. Hartung, B. Elpelt, K.-H. Klösener: Statistik. 10., durchges. Auflage. Oldenbourg, München/ Wien 1995, ISBN 3-486-23387-4.
F. Sixtl: Der Mythos des Mittelwertes. Oldenbourg, München/ Wien 2000, ISBN 3-486-23320-3.

Weblinks

Wikibooks: Statistik – Lern- und Lehrmaterialien

Volker Schmidt: Methoden der Statistik aus dem Vorlesungsskript Stochastik für Informatiker, Physiker, Chemiker und Wirtschaftswissenschaftler