Benutzer:Sigbert/Stichprobenvarianz

Die Stichprobenvarianz ist ein Maß die Streuung von Daten in der (deskriptiven) Statistik. Die Stichprobenstandardabweichung ist die Wurzel aus der Stichprobenvarianz und hat die gleiche Maßeinheit wie die Beobachtungsdaten.

Berechnung der Stichprobenvarianz

In der Literatur werden zur Berechnung der Stichprobenvarianz verschiedene Formeln verwendet, die korrigierte Stichprobenvarianz

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

oder die unkorrigierten Stichprobenvarianzen

{s'}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

oder

{s^{*}}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}

mit $x_{1},\ldots ,x_{n}$ die Beobachtungswerte und ${\bar {x}}$ das arithmetisches Mittel der Beobachtungswerte bzw. $\mu$ der wahre Mittelwert in der Grundgesamtheit. Welche der Berechnungsformeln benutzt werden kann, hängt von den Eigenschaften der Stichprobe ab.

Stichprobe ist	Mittelwert $\mu$ der Grundgesamtheit ist	Formel für Stichprobenvarianz
eine (einfache) Zufallsstichprobe	unbekannt	$s^{2}$
eine (einfache) Zufallsstichprobe	bekannt	${s^{*}}^{2}$
eine Vollerhebung		${s'}^{2}$ oder ${s^{*}}^{2}$
keine (einfache) Zufallsstichprobe		${s'}^{2}$ oder $s^{2}$

Stichprobe ist eine Zufallsstichprobe

Ist eine Stichprobe eine (einfache) Zufallsstichprobe dann ist das Ziel der Datenanalyse meist ein Rückschluß von der Stichprobe auf die Grundgesamtheit. In den Verfahren der induktiven Statistik für den Rückschluß (Statistische Tests, Konfidenzintervalle etc.) fließt oft die Varianz $\sigma ^{2}$ der Grundgesamtheit ein.

In der Praxis ist die Varianz der Grundgesamtheit jedoch unbekannt, so dass sie aus den Beobachtungsdaten geschätzt werden muß. Für die Schätzfunktionen

$S^{2}\,$	$={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$	(falls $\mu$ ebenfalls geschätzt werden muß)
${S^{*}}^{2}$	$={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}$	(falls $\mu$ nicht geschätzt werden muß)

kann man zeigen, dass diese Schätzfunktionen unverzerrt sind für die unbekannte Varianz $\sigma ^{2}$ der Grundgesamtheit: $E\left(S^{2}\right)=E\left({S^{*}}^{2}\right)=\sigma ^{2}$ .

Deswegen wird im Rahmen der induktiven Statistik immer $s^{2}$ , falls $\mu$ geschätzt werden muß, bzw. ${s^{*}}^{2}$ , falls $\mu$ bekannt ist, genutzt.

Stichprobe ist eine Vollerhebung

In diesem Fall enthält die Stichprobe alle Elemente der Grundgesamtheit und ${s'}^{2}$ und ${s^{*}}^{2}$ fallen zusammen. Der wahre Mittelwert der Grundgesamtheit $\mu$ berechnet sich aus allen Elementen der Grundgesamtheit als

\mu ={\tfrac {1}{N}}\sum _{i=1}^{N}x_{i}={\tfrac {1}{n}}\sum _{i=1}^{n}x_{i}={\bar {x}}

mit $N$ die Anzahl der Elemente der Grundgesamtheit und $n$ die Anzahl der Elemente in der Stichprobe. Bei einer Vollerhebung gilt natürlich $N=n$ und damit $\mu ={\bar {x}}$ . Die Varianz der Grundgesamtheit lässt sich dann als mittlere quadratische Abweichung vom Mittelwert berechnen

\sigma ^{2}={\tfrac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}

.

Stichprobe ist keine Zufallsstichprobe

Ist die Stichprobe keine Zufallsstichprobe, so ist es meist nicht möglich auf einfache Weise die Varianz der Grundgesamtheit aus den Beobachtungsdaten zu schätzen. Daher dient die Stichprobenvarianz dann nur zur Beschreibung der Streuung der Daten im Sinne der mittlere quadratische Abweichung vom Mittelwert. Daher sollte die Formel

{s'}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

genutzt werden zwecks eindeutiger Interpretation. Auf der anderen Seite wird im Fall Stichprobe ist eine Zufallsstichprobe die korrigierte Stichprobenvarianz eingesetzt

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}

und bei der Nutzung dieser Formel wird die Stichprobenvarianz in Rahmen der deskriptiven und der induktiven Statistik auf gleiche Weise berechnet. Jedoch ist die Stichprobenvarianz hier nur noch approximativ die mittlere quadratische Abweichung vom Mittelwert.

Entschärft wird das Problem dadurch, dass der Unterschied zwischen ${s'}^{2}$ und $s^{2}$ bei grossen Stichprobenumfängen nur klein ist. D.h. nur bei kleinen Stichprobenumfängen muss der Nutzer entscheiden, welche Formel er bevorzugt.

Beispiel

Varianzschätzungen mit verschiedenen Varianzschätzern (rot, blau, grün) und verschiedenen Stichprobenumfängen

Als Beispiel werden aus einer Standardnormalverteilung $n=5$ Zufallszahlen berechnet und es ergeben sich z.B folgende Beobachtungswerte:

$i$	1	2	3	4	5
$x_{i}$	-0,8223	-0,2789	-0,2537	1,1041	1,5785

mit dem Mittelwert ${\bar {x}}=0,2655$ . Da die Daten aus einer Standardnormalverteilung stammen, kennt man den wahren Mittelwert von $\mu =0\,$ . Und damit ergibt sich

$s^{2}\,$	$={\tfrac {1}{4}}\left((-0,8223-0,2655)^{2}+\cdots +(1,5785-0,2655)^{2}\right)$	$=1,0441\,$
${s'}^{2}\,$	$={\tfrac {1}{5}}\left((-0,8223-0,2655)^{2}+\cdots +(1,5785-0,2655)^{2}\right)$	$=0,8353\,$
${s^{*}}^{2}\,$	$={\tfrac {1}{5}}\left((-0,8223-0)^{2}+\cdots +(1,5785-0)^{2}\right)$	$=0,9058\,$

Die Grafik rechts zeigt für verschiedene Stichprobenumfänge die geschätzten Varianzen für jeweils 1000 Stichproben mit standardnormalverteilten Daten. Die Farben stehen für verschiedene Schätzer: ${s'}^{2}\,$ in Rot, $s^{2}\,$ in Blau und ${s^{*}}^{2}\,$ in Grün. Der schwarze Punkt im Boxplot ist der Mittelwert aus den 1000 Schätzungen. Man sieht deutlich, dass für weniger als 50-100 Beobachtungen in der Stichprobe ${s'}^{2}$ (Rot) die wahre Varianz von $\sigma ^{2}=1$ unterschätzt.

Schätzung der Varianz einer Grundgesamtheit

Varianzschätzung' ist in der Statistik die Schätzung einer unbekannten Varianz der Grundgesamtheit. Sie ist eine Methode zur Messung der Genauigkeit von Schätzverfahren, da die Varianz von Schätzverfahren ein Genauigkeitsmaß darstellt. Die Varianz wird bei einfacher Zufallsauswahl durch die Stichprobenvarianz geschätzt (korrigiert um 1/n-1). Bei komplexen Stichprobenverfahren sind andere Varianzschätzer anzuwenden. Die Methoden werden angewendet, um Konfidenzintervalle angeben zu können. Die Varianzschätzer können von Schätzern für Totalwerte abgeleitet werden.

Direkte Verfahren - Lineare Schätzer

Bei direkten Methoden lässt sich die Varianz explizit darstellen. Sie lassen sich meist nur bei einfachen Punktschätzern angeben. Hier werden Approximationsformeln nur bei Stichprobendesigns mit Inklusionswahrscheinlichkeiten zweiter Ordnung benötigt. Exakte Methoden, das heißt einfach auszurechnende Formeln können im Fall eines Linearen Schätzers angegeben werden. Dies ist generell möglich bei Zufallsauswahlen.

Uneingeschränkte Zufallsstichprobe: Für die Varianz (σ²) der Grundgesamtheit verwendet man zumeist die korrigierte Stichprobenvarianz $s^{*^{2}}$ als Schätzfunktion:

{\widehat {\operatorname {Var} (X)}}=S^{*^{2}}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

.

Mehrstufige Zufallsstichproben (Schichtung)

Schätzung der Varianz einer Normalverteilung

Der Maximum-Likelihood-Schätzer $s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\bar {X_{n}}})^{2}$ ist dagegen nicht erwartungstreu für $\sigma ^{2}=\gamma _{2}(\vartheta )=c_{2}^{T}\vartheta \;$ mit $c_{2}=(0,1)^{T}\;$ , da sich $E[s_{n}^{2}]={\frac {n-1}{n}}\sigma ^{2}\;$ zeigen lässt. Der Bias beträgt also $E[s_{n}^{2}]-\sigma ^{2}=-{\frac {1}{n}}\sigma ^{2}.\;$ Da dieser asymptotisch, also für $n\rightarrow \infty \;$ , verschwindet, ist der Schätzer allerdings asymptotisch erwartungstreu.

Linearisierungsmethoden - Nicht-Linearer Schätzer

Bei nicht-linearen Schätzern (z.B. einem Ratio-Schätzer) kommen approximative Methoden zum Einsatz. Unter anderem untersucht man Schätzungsgleichungen und Einflussfunktionen. Durch die Woodruff-Linearisierung können nicht lineare Schätzer zu linearen umgewandelt werden. Eine weitere Methode ist die Taylorapproximation.

Beispiele:

Resampling-Methoden

Ist dies auch nicht möglich, kommen Resamplingmethoden zum Einsatz. Dazu werden Substichproben der eigentlichen Stichprobe mit n Elementen gezogen. Bei der Schätzung kann dann das Stichprobendesign durch Gewichtung berücksichtigt werden.

Resampling-Methoden:

siehe zu "Varianzschätzung mit Mikrozensusdaten unter Berücksichtigung des Stichprobendesigns" den Artikel bei GESIS

Weblinks

Anwendungsbeispiel

Literatur

Stenger, Horst: Varianzschätzung bei komplexen Stichprobenerhebungen. In: Aktuelle Probleme und neue Methoden der Verkehrsstatistik. Hrsg.: Hautzinger, H.. Bergisch Gladbach: DVWG, 1985, S. 143-150
Davison, A.; Hinkley, D.V. (2003): Bootstrap methods and their application.
Davison, A.; Sardy, S. (2004): DACSEIS reports D5.1 and D5.2.
Wolter, K. (1985): Introduction to variance estimation.
Strauss, Ingo (1979): Zulässigkeit von Varianzschaetzungen in der Stichprobentheorie
Vollmerhaus, Rainer (1989): Robuste Schätzung der Varianz