Normal-Approximation

Die Normal-Approximation ist eine Methode der Wahrscheinlichkeitsrechnung, um die Binomialverteilung für große Stichproben durch die Normalverteilung anzunähern. Hierbei handelt es sich um eine Anwendung des Satzes von Moivre-Laplace und damit auch um eine Anwendung des Zentralen Grenzwertsatzes.

Formulierung

Für eine binomialverteilte Zufallsvariable $S_{n}\sim \mathrm {Bin} (n,p)$ mit dem Erwartungswert $\mu _{n}:=\mathbb {E} [S_{n}]=np$ und der Standardabweichung $\sigma _{n}:={\sqrt {\mathrm {Var} [S_{n}]}}={\sqrt {np(1-p)}}>0$ gilt nach dem Satz von Moivre-Laplace

\lim _{n\to \infty }\left(\operatorname {P} (S_{n}\leq x)-\Phi \left({\frac {x-\mu _{n}}{\sigma _{n}}}\right)\right)=0,\quad x\in \mathbb {R} \;,

,

wobei $\Phi$ die Wahrscheinlichkeitsverteilungsfunktion der Standardnormalverteilung bezeichnet.

Diesen asymptotischen Zusammenhang verwendet man zur Rechtfertigung der Approximation der Verteilungsfunktion von $S_{n}$ durch die Verteilungsfunktion der Normalverteilung ${\mathcal {N}}(\mu _{n},\sigma _{n}^{2})$ für endliches, aber hinreichend große $n$ , d. h.

\operatorname {P} (S_{n}\leq x)\approx \Phi \left({\frac {x-\mu _{n}}{\sigma _{n}}}\right),\quad x\in \mathbb {R} \,.

Mit dieser Approximation der Verteilungsfunktion erhält man für $k_{1},k_{2}\in \{0,1,\dots ,n\}$ mit $k_{1}<k_{2}$

{\begin{aligned}\operatorname {P} (k_{1}<S_{n}\leq k_{2})&=\underbrace {\operatorname {P} (S_{n}\leq k_{2})-\operatorname {P} (S_{n}\leq k_{1})} _{\text{Binomialverteilung}}\\&\approx \underbrace {\Phi {\left({\frac {k_{2}-\mu _{n}}{\sigma _{n}}}\right)}-\Phi {\left({\frac {k_{1}-\mu _{n}}{\sigma _{n}}}\right)}} _{\text{Normalverteilung}}.\end{aligned}}

Eine exakte Berechnung der Wahrscheinlichkeit würde dagegen durch

\operatorname {P} (k_{1}<S_{n}\leq k_{2})=\sum _{k=k_{1}+1}^{k_{2}}{\binom {n}{k}}p^{k}(1-p)^{n-k}

erfolgen.

Güte der Approximation

Für viele Anwendungen gilt die Näherung als hinreichend gut, falls $np(1-p)\geq 9$ gilt.^[1]^[2]^[3] Falls dies nicht gilt, so sollte zumindest $np\geq 5$ und $n(1-p)\geq 5$ gelten.^[4]^[5] Je asymmetrischer die Binomialverteilung ist, d. h. je größer die Differenz zwischen $p$ und $1-p$ ist, umso größer sollte $n$ sein.

Für $p$ nahe an 0 ist zur Näherung die Poisson-Approximation besser geeignet. Dabei wird die Binomialverteilung $\mathrm {Bin} (n,p)$ durch eine Poissonverteilung mit dem Parameter $np$ approximiert. Für $p$ nahe an 1 sind beide Approximationen schlecht, dann kann jedoch $S_{n}'=n-S_{n}$ statt $S_{n}$ betrachtet werden, d. h. bei der Binomialverteilung werden Erfolge und Misserfolge vertauscht. $S_{n}'$ ist wieder binomialverteilt mit Parametern $n$ und $1-p$ und kann daher mit der Poisson-Approximation angenähert werden.

Stetigkeitskorrektur

Mit der Stetigkeitskorrektur wird eine verbesserte Approximation von Wahrscheinlichkeiten der Binomialverteilung $\mathrm {Bin} (n,p)$ berechneten Wahrscheinlichkeiten durch die Wahrscheinlichkeiten aus der Normalverteilungsapproximation ${\mathcal {N}}(\mu ,\sigma ^{2})$ mit den Parametern $\mu =np$ und $\sigma ^{2}=np(1-p)$ und der Verteilungsfunktion $x\mapsto \Phi ((x-\mu )/\sigma )$ angestrebt.

Die Grundidee ist, den $n+1$ Stellen $0,1,\dots ,n$ der Binomialverteilung die Wahrscheinlichkeiten der Normalverteilung in den $n+1$ Intervallen

I_{k}={\begin{cases}(-\infty ,k+1/2)&{\text{für }}k=0\\(k-1/2,k+1/2)&{\text{für }}k=1,\dots ,n-1\\(k-1/2,\infty )&{\text{für }}k=n\end{cases}}

zuzuordnen. Für $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ gilt dann

P(X\in I_{k})={\begin{cases}\Phi \left({\frac {k+1/2-\mu }{\sigma }}\right)&{\text{für }}k=0\\\Phi \left({\frac {k+1/2-\mu }{\sigma }}\right)-\Phi \left({\frac {k-1/2-\mu }{\sigma }}\right)&{\text{für }}k=1,\dots ,n-1\\1-\Phi \left({\frac {k-1/2-\mu }{\sigma }}\right)&{\text{für }}k=n\end{cases}}

Für einen Wert $k\in \{0,1,\dots ,n\}$ ergeben sich mit Verwendung der Stetigkeitskorrektur die Approximationen

P(S_{n}=k)\approx \Phi \left({\frac {k+1/2-\mu }{\sigma }}\right)-\Phi \left({\frac {k-1/2-\mu }{\sigma }}\right),

P(S_{n}\leq k)\approx \Phi \left({\frac {k+1/2-\mu }{\sigma }}\right)

und

P(S_{n}\geq k)\approx 1-\Phi \left({\frac {k-1/2-\mu }{\sigma }}\right)\;.

Für zwei Werte $k_{1},k_{2}\in \{0,1,\dots ,n\}$ mit $k_{1}\leq k_{2}$ ergibt sich mit Verwendung der Stetigkeitskorrektur die Approximation

P(k_{1}\leq S_{n}\leq k_{2})\approx \Phi \left({\frac {k_{2}+0{,}5-\mu }{\sigma }}\right)-\Phi \left({\frac {k_{1}-0{,}5-\mu }{\sigma }}\right).

Beispiele

Beispiel 1

Ein fairer Würfel wird 1000 Mal geworfen. Gesucht ist die Wahrscheinlichkeit, dass mindestens 100 und höchstens 150 Mal die Sechs gewürfelt wird.

Berechnung mit Binomialverteilung

Die Zufallsvariable

S_{1000}

, die die zufällige Anzahl der gewürfelten Sechsen bei

1000

Versuchen beschreibt, ist binomialverteilt mit den Parametern

n=1000

und

p=1/6

, es gilt also

S_{1000}\sim \mathrm {Bin} (1000,1/6)

.^[6] Die gesuchte Wahrscheinlichkeit ist daher

P(100\leq S_{1000}\leq 150)=\sum _{k=100}^{150}{\binom {1000}{k}}\left({\frac {1}{6}}\right)^{k}\left({\frac {5}{6}}\right)^{1000-k}\approx 0{,}0837\;.

Mit einer Wahrscheinlichkeit von ca. 8,4 % wird also bei 1000 Versuchen zwischen 100 und 150 Mal die Sechs gewürfelt.

Berechnung mit Normal-Approximation

Es ist

np(1-p)=1000{\frac {1}{6}}{\frac {5}{6}}=138{,}{\bar {8}}>9

. Entsprechend der Faustformel gilt die approximierte Lösung also ausreichend genau. Die beiden Parameter für die Approximation der Binomialverteilung durch eine Normalverteilung sind

\mu =np=1000/6

und

\sigma ={\sqrt {np(1-p)}}={\sqrt {5000/36}}\;.

Die Approximation ohne Stetigkeitskorrektur, wobei die Verteilungsfunktion der Binomialverteilung durch die Verteilungsfunktion einer Normalverteilung mit denselben Parametern approximiert wird, ist

{\begin{aligned}P(100\leq S_{1000}\leq 150)&=P(S_{1000}\leq 150)-P(S_{1000}\leq 99)\\&\approx \Phi \left({\frac {150-\mu }{\sigma }}\right)-\Phi \left({\frac {99-\mu }{\sigma }}\right)\\&\approx \Phi (-1{,}4142)-\Phi (-5{,}74171)\approx 1-\Phi (1{,}4142)\approx 0{,}0786\end{aligned}}

Berechnung mit Normal-Approximation und Stetigkeitskorrektur

Die Approximation mit Stetigkeitskorrektur ist

{\begin{aligned}P(100\leq S_{1000}\leq 150)&\approx \Phi \left({\frac {150+0{,}5-\mu }{\sigma }}\right)-\Phi \left({\frac {100-0{,}5-\mu }{\sigma }}\right)\\&\approx \Phi (-1{,}3718)-\Phi (-5{,}6993)\approx 1-\Phi (1{,}3718)\approx 0{,}0851\end{aligned}}

Die Werte $\Phi (z)$ können numerisch bestimmt werden oder aus Tabelle abgelesen werden, da keine explizite Stammfunktion existiert. Die approximierte Lösung ist häufig numerisch günstiger, da keine umfangreichen Berechnungen der Binomialkoeffizienten durchgeführt werden müssen.

Beispiel 2

Plot der Dichte der Normalverteilung mit μ = 12 und σ = 3 und der Binomialverteilung mit n = 48 und p = 1/4

Gegeben sei eine binomialverteilte Zufallsvariable $X$ mit den Parametern $n=48$ und $p={\tfrac {1}{4}}$ , dann hat $X$ den Erwartungswert $np=12$ und die Varianz $np(1-p)=9$ . Die Binomialverteilung wird durch eine Normalverteilung ${\mathcal {N}}(\mu ,\sigma ^{2})$ mit dem Mittelwert $\mu =np=12$ und der Varianz $\sigma ^{2}=np(1-p)=9$ approximiert.

Nun suchen wir die Antwort auf die Frage: „Wie groß ist die Wahrscheinlichkeit, dass $X$ Werte kleiner oder gleich 3 annimmt?“ bzw. „Wie groß ist die Wahrscheinlichkeit $P(0\leq X\leq 3)$ ?“ Da $3=\mu -3\sigma$ ist, handelt es sich um eine kleine Wahrscheinlichkeit im linken Verteilungsende, die exakt mit Hilfe der Binomialverteilung oder approximativ aus der Normalverteilung berechnet werden kann. Für diese Fragestellung und Parameterkonstellation ergeben sich folgende Resultate:

Berechnung mit der Binomialverteilung

P(0\leq X\leq 3)=\sum _{k=0}^{3}{\binom {48}{k}}\cdot {\bigg (}{\frac {1}{4}}{\bigg )}^{k}\cdot {\bigg (}{\frac {3}{4}}{\bigg )}^{48-k}\approx 0{,}0007882

Abschätzung mit der Normalverteilung

{\begin{aligned}P(0\leq X\leq 3)&=P(X\leq 3)-P(X\leq -1)\\&\approx \Phi \left({\tfrac {3-12}{3}}\right)-\Phi \left({\tfrac {-1-12}{3}}\right)\\&=\Phi \left(-3\right)-\Phi \left(-13/3\right)\\&\approx 0{,}0013499-0{,}0000073\approx 0{,}001343\end{aligned}}

Abschätzung mit Normalverteilung und Stetigkeitskorrektur

{\begin{aligned}P(0\leq X\leq 3)&\approx \Phi \left({\tfrac {3+0{,}5-12}{3}}\right)-\Phi \left({\tfrac {0-0{,}5-12}{3}}\right)\\&=\Phi \left(-8{,}5/3\right)-\Phi \left(-12{,}5/3\right)\\&\approx 0{,}002303-0.0000015\approx 0{,}00229\end{aligned}}

Die Berechnung mit der Normalverteilung ohne Stetigkeitskorrektur überschätzt die Wahrscheinlichkeit. Dies ist darauf zurückzuführen, dass die Binomialverteilung bei dieser Parameterkonstellation eine Schiefe aufweist, die dazu führt, dass die Normalverteilung im linken Verteilungsende die entsprechenden Wahrscheinlichkeiten überschätzt und im rechten Verteilungsende überschätzt. Ob dieser Approximationsfehler akzeptabel ist, hängt von der Anwendung und Fragestellung ab. Der absolute Approximationsfehler 0,001343 - 0,0007882 liegt unter 0,001 und kann damit z. B. in solchen statistischen Anwendungsfällen akzeptabel sein, bei denen Konfidenz- und Signifikanzniveaus in einer der groben Stufen $\alpha \in \{10\%,5\%,1\%\}$ festgelegt werden. Anderseits ist der relative Approximationsfehler (0,001343 - 0,0007882)/0,0007882 = 70,39 %. Dies kann bei anderen Anwendungen eine unakzeptable Ungenauigkeit der zu bestimmenden Wahrscheinlichkeit sein.

Die Verwendung der Stetigkeitskorrektur verschlechtert bei dieser Konstellation die Approximation durch die Normalverteilung, da durch die Berücksichtigung zusätzlicher Wahrscheinlichkeitsmasse die Überschätzung durch die Normalverteilung weiter verstärkt wird. Das Beispiel zeigt insofern die Problematik einer standardmäßigen Anwendung der Stetigkeitskorrektur, wenn damit die Vorstellung einer gleichmäßigen Verbesserung verbunden ist.

Literatur

Hans-Otto Georgii: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik, 4. Auflage, de Gruyter, 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274.
Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig 1988, ISBN 978-3-528-07259-9, doi:10.1007/978-3-322-96418-2.

Einzelnachweise

↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 304.
↑ Michael Sachs: Wahrscheinlichkeitsrechnung und Statistik für Ingenieurstudenten an Fachhochschulen. Fachbuchverlag Leipzig, München 2003, ISBN 3-446-22202-2, S. 129–130
↑ Christian Hassold, Sven Knoth, Detlef Steuer; Formelsammlung Statistik I & II. Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik; Hamburg 2010, S. 25 (Memento vom 9. Februar 2016 im Internet Archive), zuletzt abgerufen am 9. Februar 2016.
↑ K.Zirkelbach, W.Schmid; Kommentierte Formelsammlung Statistik I und II. Deskriptive Statistik - Wahrscheinlichkeitsrechnung; Frankfurt(Oder) 2008, S. 29.
↑ Formelsammlung zur Vorlesung Statistik I/II für Statistiker, Mathematiker und Informatiker (WS 08/09); LMU München 2008, S.23, zuletzt abgerufen am 9. Februar 2016.
↑ Etwas "exakter": Zur Modellierung definiert man den Wahrscheinlichkeitsraum $(\Omega ,\Sigma ,P)$ mit der Ergebnismenge $\Omega :=\{0,\dotsc ,1000\}$ der Anzahl der gewürfelten Sechsen. Die σ-Algebra ist dann kanonisch die Potenzmenge der Ergebnismenge $\Sigma :={\mathcal {P}}(\Omega )$ und die Wahrscheinlichkeitsverteilung die Binomialverteilung $P(\{k\}):=B_{n,p}(\{k\})$ , wobei $n=1000$ ist und $p=1/6$ .

[1] Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 304.

[SACHS-2] Michael Sachs: Wahrscheinlichkeitsrechnung und Statistik für Ingenieurstudenten an Fachhochschulen. Fachbuchverlag Leipzig, München 2003, ISBN 3-446-22202-2, S. 129–130

[3] Christian Hassold, Sven Knoth, Detlef Steuer; Formelsammlung Statistik I & II. Beschreibende Statistik - Wahrscheinlichkeitsrechnung - Schließende Statistik; Hamburg 2010, S. 25 (Memento vom 9. Februar 2016 im Internet Archive), zuletzt abgerufen am 9. Februar 2016.

[4] K.Zirkelbach, W.Schmid; Kommentierte Formelsammlung Statistik I und II. Deskriptive Statistik - Wahrscheinlichkeitsrechnung; Frankfurt(Oder) 2008, S. 29.

[5] Formelsammlung zur Vorlesung Statistik I/II für Statistiker, Mathematiker und Informatiker (WS 08/09); LMU München 2008, S.23, zuletzt abgerufen am 9. Februar 2016.

[6] Etwas "exakter": Zur Modellierung definiert man den Wahrscheinlichkeitsraum $(\Omega ,\Sigma ,P)$ mit der Ergebnismenge $\Omega :=\{0,\dotsc ,1000\}$ der Anzahl der gewürfelten Sechsen. Die σ-Algebra ist dann kanonisch die Potenzmenge der Ergebnismenge $\Sigma :={\mathcal {P}}(\Omega )$ und die Wahrscheinlichkeitsverteilung die Binomialverteilung $P(\{k\}):=B_{n,p}(\{k\})$ , wobei $n=1000$ ist und $p=1/6$ .

[1]

[2]

[3]

[4]

[5]

[6]