Ohne Beschränkung der Allgemeinheit gelte
a
=
0
,
b
=
1
{\displaystyle a=0,b=1}
.
Sei
K
{\displaystyle K}
eine binomialverteilte Zufallsvariable mit den Parametern
n
{\displaystyle n}
der Anzahl der Versuche bis zum ersten Erfolg (bei einer Folge unabhängiger Bernoulli-Versuche) und Erfolgswahrscheinlichkeit
p
{\displaystyle p}
. Dann gilt
E
[
K
n
]
=
p
{\displaystyle \mathbb {E} \left[{\frac {K}{n}}\right]=p}
.
Mit dem schwachen Gesetz der großen Zahlen (
E
[
K
/
n
]
=
p
{\displaystyle \mathbb {E} [K/n]=p}
!) folgt
lim
n
→
∞
P
(
|
K
n
−
p
|
>
δ
)
=
0
{\displaystyle \lim _{n\to \infty }{P\left(\left|{\frac {K}{n}}-p\right|>\delta \right)}=0}
für alle
δ
>
0
{\displaystyle \delta >0}
(Konvergenz in Wahrscheinlichkeit von
K
/
n
{\displaystyle K/n}
gegen
p
{\displaystyle p}
).
Diese Konvergenz bzgl.
n
{\displaystyle n}
ist sogar gleichmäßig in
p
{\displaystyle p}
, weil gemäß dem folgenden Lemma die Varianz von
K
/
n
{\displaystyle K/n}
durch eine Nullfolge ohne Abhängigkeit von
p
{\displaystyle p}
nach oben hin und nach unten hin durch 0 beschränkt ist.
Die Varianz von
K
/
n
{\displaystyle K/n}
ist beschränkt durch
1
4
n
{\displaystyle {\frac {1}{4n}}}
.
Da
K
{\displaystyle K}
binomialverteilt ist, ist
V
a
r
(
K
/
n
)
=
V
a
r
(
K
)
n
2
=
n
p
(
1
−
p
)
n
2
=
p
(
1
−
p
)
n
=
−
p
2
+
p
n
{\displaystyle {\begin{aligned}Var(K/n)&={\frac {Var(K)}{n^{2}}}\\&={\frac {np(1-p)}{n^{2}}}\\&={\frac {p(1-p)}{n}}\\&={\frac {-p^{2}+p}{n}}\end{aligned}}}
. Wir suchen das globale Maximum bezüglich
p
{\displaystyle p}
auf
[
0
,
1
]
{\displaystyle [0,1]}
.
0
=
∂
V
a
r
(
K
/
n
)
∂
p
=
−
2
p
+
1
n
0
=
−
2
p
+
1
−
1
=
−
2
p
p
=
1
2
{\displaystyle {\begin{aligned}0&={\frac {\partial Var(K/n)}{\partial p}}={\frac {-2p+1}{n}}\\0&=-2p+1\\-1&=-2p\\p&={\frac {1}{2}}\end{aligned}}}
. Bei
p
^
:=
1
2
{\displaystyle {\hat {p}}:={\frac {1}{2}}}
befindet sich also ein lokaler Extremwert. Wegen
∂
2
V
a
r
(
K
/
n
)
∂
2
p
=
−
2
>
0
{\displaystyle {\frac {\partial ^{2}Var(K/n)}{\partial ^{2}p}}=-2>0}
an der Stelle
p
^
{\displaystyle {\hat {p}}}
ist dieses lokale Extremum ein lokales Maximum. Auf dem Rand (für
p
=
0
{\displaystyle p=0}
oder
p
=
1
{\displaystyle p=1}
) ist die Varianz 0 und damit kleiner dem lokalen Maximum. Also liegt bei
p
^
{\displaystyle {\hat {p}}}
ein globales Maximum mit Funktionswert
V
a
r
(
K
/
n
)
(
1
2
)
=
1
4
n
{\displaystyle Var(K/n)\left({\frac {1}{2}}\right)={\frac {1}{4n}}}
.
Das Intervall
[
0
,
1
]
{\displaystyle [0,1]}
ist abgeschlossen und beschränkt, also kompakt (Satz von Heine-Borel).
f
{\displaystyle f}
ist stetig (in
p
{\displaystyle p}
), also insbesondere fast überall stetig.
f
{\displaystyle f}
ist stetig, also messbar. Außerdem ist
f
{\displaystyle f}
auf einem kompakten Intervall definiert.
Also ist
f
{\displaystyle f}
auf diesem Intervall auch gleichmäßig stetig und beschränkt (durch
p
{\displaystyle p}
, eine integrierbare Funktion mit endlichem Erwartungswert, siehe Lemma).
Daraus folgt für alle
ε
>
0
{\displaystyle \varepsilon >0}
die gleichmäßige Konvergenz in Wahrscheinlichkeit in
p
{\displaystyle p}
(nach dem gleichmäßigen Gesetz der großen Zahl , ), also
{\displaystyle }
lim
n
→
∞
P
(
|
f
(
K
n
)
−
f
(
x
)
|
>
ε
)
=
0
{\displaystyle \lim _{n\to \infty }{P\left(\left|f\left({\frac {K}{n}}\right)-f\left(x\right)\right|>\varepsilon \right)}=0}
.
(siehe auch hier ????????) Aus der Beschränktheit von
f
{\displaystyle f}
(auf dem gegebenen Intervall) folgt mit dem Satz über die majorisierte Konvergenz für Zufallsvariablen die (gleichmäßige, weil Absolutbetrag unabhängig von
x
{\displaystyle x}
beschränkt und damit Erwartungswert ebenso (Monotonie des Erwartungswertes)) Konvergenz der Erwartungswerte
lim
n
→
∞
E
[
|
f
(
K
n
)
−
f
(
x
)
|
]
=
0
{\displaystyle \lim _{n\to \infty }{E\left[\left|f\left({\frac {K}{n}}\right)-f\left(x\right)\right|\right]}=0}
.
Für alle Funktionen
f
{\displaystyle f}
und alle natürlichen Zahlen
n
{\displaystyle n}
gilt:
f
(
x
)
=
∑
k
=
0
n
f
(
x
)
(
n
k
)
p
k
(
1
−
p
n
−
k
)
{\displaystyle f(x)=\sum _{k=0}^{n}f(x){n \choose k}p^{k}(1-p^{n-k})}
f
(
x
)
=
f
(
x
)
×
1
n
=
f
(
x
)
×
(
p
+
1
−
p
)
n
=
f
(
x
)
×
∑
k
=
0
n
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
0
n
f
(
x
)
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle {\begin{aligned}f(x)&=f(x)\times 1^{n}\\&=f(x)\times (p+1-p)^{n}\\&=f(x)\times \sum _{k=0}^{n}{n \choose k}p^{k}(1-p)^{n-k}\\&=\sum _{k=0}^{n}f(x){n \choose k}p^{k}(1-p)^{n-k}\end{aligned}}}
aufgrund des Binomischen Lehrsatzes.
Gemäß dem Lemma 2 gilt
|
f
(
K
/
n
)
−
f
(
p
)
|
=
∑
k
=
0
n
|
f
(
K
/
n
)
−
f
(
p
)
|
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle |f(K/n)-f(p)|=\sum _{k=0}^{n}|f(K/n)-f(p)|{n \choose k}p^{k}(1-p)^{n-k}}
. Sei
ε
>
0
{\displaystyle \varepsilon >0}
. Wegen der Stetigkeit von
f
{\displaystyle f}
existiert dann ein
δ
>
0
{\displaystyle \delta >0}
, sodass gilt:
∀
x
,
y
∈
[
a
,
b
]
:
|
x
−
y
|
<
δ
⟹
|
f
(
x
)
−
f
(
y
)
|
<
ε
/
2.
{\displaystyle \forall x,y\in [a,b]:|x-y|<\delta \implies |f(x)-f(y)|<\varepsilon /2.}
Zerlege die Summe in zwei Teile:
einen Teil
A
{\displaystyle A}
mit
k
{\displaystyle k}
-Werten, die
|
k
/
n
−
x
|
<
δ
{\displaystyle |k/n-x|<\delta }
erfüllen und
einen Teil
B
{\displaystyle B}
mit
k
{\displaystyle k}
-Werten, die diese Bedingung nicht erfüllen.
Wegen der Stetigkeit von
f
{\displaystyle f}
gilt für alle Summenglieder von
A
{\displaystyle A}
:
|
f
(
K
(
x
)
/
n
)
−
f
(
x
)
|
<
ε
/
2
{\displaystyle |f(K(x)/n)-f(x)|<\varepsilon /2}
und für all jene von
B
{\displaystyle B}
:
|
f
(
K
(
x
)
/
n
)
−
f
(
x
)
|
<
M
+
M
=
2
M
{\displaystyle |f(K(x)/n)-f(x)|<M+M=2M}
wegen der Beschränktheit von
f
{\displaystyle f}
auf
[
a
,
b
]
{\displaystyle [a,b]}
. Daraus ergibt sich:
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
=
E
[
∑
k
=
0
n
|
f
(
K
/
n
)
−
f
(
x
)
|
(
n
k
)
p
k
(
1
−
p
)
n
−
k
]
≤
E
[
(
1
k
wie in
A
)
×
ε
/
2
]
+
E
[
(
1
k
wie in
B
)
×
2
M
]
=
P
(
k
wie in
A
)
×
ε
/
2
+
P
(
k
wie in
B
)
×
2
M
≤
1
×
ε
/
2
+
2
M
ε
4
n
=
ε
{\displaystyle {\begin{aligned}\mathbb {E} \left[|f(K/n)-f(x)|\right]&=\mathbb {E} \left[\sum _{k=0}^{n}|f(K/n)-f(x)|{n \choose k}p^{k}(1-p)^{n-k}\right]\\&\leq \mathbb {E} \left[(\mathbf {1} _{k{\text{ wie in }}A})\times \varepsilon /2\right]+\mathbb {E} \left[(\mathbf {1} _{k{\text{ wie in }}B})\times 2M\right]\\&=P(k{\text{ wie in }}A)\times \varepsilon /2+P(k{\text{ wie in }}B)\times 2M\\&\leq 1\times \varepsilon /2+2M{\frac {\varepsilon }{4n}}\\&=\varepsilon \end{aligned}}}
. Mit der Dreiecksgleichung des Erwartungswertes und seiner Linearität folgt für ein beliebiges, fixes
x
{\displaystyle x}
:
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
≥
|
E
[
f
(
K
/
n
)
−
f
(
x
)
]
|
=
|
E
[
f
(
K
/
n
)
]
−
E
[
f
(
x
)
]
|
=
|
E
[
f
(
K
/
n
)
]
−
f
(
x
)
|
{\displaystyle {\begin{aligned}\mathbb {E} \left[|f(K/n)-f(x)|\right]&\geq |\mathbb {E} \left[f(K/n)-f(x)\right]|\\&=|\mathbb {E} \left[f(K/n)\right]-\mathbb {E} \left[f(x)\right]|\\&=|\mathbb {E} \left[f(K/n)\right]-f(x)|\end{aligned}}}
. Definiere die Bernstein-Polynome durch
B
n
(
f
)
(
x
)
:=
∑
ν
=
0
n
f
(
ν
n
)
b
ν
,
n
(
x
)
{\displaystyle {\begin{aligned}B_{n}(f)(x):=\sum _{\nu =0}^{n}f\left({\frac {\nu }{n}}\right)b_{\nu ,n}(x)\end{aligned}}}
mit
b
ν
,
n
(
x
)
=
(
n
ν
)
x
ν
(
1
−
x
)
n
−
ν
,
ν
=
0
,
…
,
n
.
{\displaystyle b_{\nu ,n}(x)={n \choose \nu }x^{\nu }\left(1-x\right)^{n-\nu },\quad \nu =0,\ldots ,n.}
Dann genügt es, Lemma 3 zu zeigen, denn dann ist zusammengefasst (mit
P
:=
B
n
(
f
)
{\displaystyle \mathbf {P} :=B_{n}(f)}
):
|
B
n
(
f
)
(
x
)
−
f
(
x
)
|
=
|
E
[
f
(
K
/
n
)
]
−
f
(
x
)
|
≤
E
[
|
f
(
K
/
n
)
−
f
(
x
)
|
]
≤
ε
.
{\displaystyle {\begin{aligned}|B_{n}(f)(x)-f(x)|&=|\mathbb {E} [f(K/n)]-f(x)|\\&\leq \mathbb {E} [|f(K/n)-f(x)|]\\&\leq \varepsilon .\end{aligned}}}
E
[
f
(
K
/
n
)
]
=
B
n
(
f
)
(
x
)
{\displaystyle \mathbb {E} [f(K/n)]=B_{n}(f)(x)}
Es folgt schrittweise aus dem Gesetz des bewusstlosen Statistikers (»law of unconscious statistician«), der Berechnung der Wahrscheinlichkeitsfunktion und dem Einsetzen der Wahrscheinlichkeitsfunktion der Binomialverteilung das Ergebnis.
E
[
f
(
K
/
n
)
]
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
/
n
(
ν
/
n
)
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
n
ν
/
n
)
|
d
n
ν
/
n
d
ν
|
=
∑
ν
=
0
n
f
(
ν
/
n
)
f
K
(
ν
)
|
d
ν
d
ν
|
=
∑
ν
=
0
n
f
(
ν
)
f
K
(
ν
)
|
1
|
=
∑
ν
=
0
n
f
(
ν
)
f
K
(
ν
)
=
∑
ν
=
0
n
f
(
ν
n
)
(
n
ν
)
x
ν
(
1
−
x
)
n
−
ν
{\displaystyle {\begin{aligned}\mathbb {E} [f(K/n)]&=\sum _{\nu =0}^{n}f(\nu /n)f_{K/n}(\nu /n)\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(n\nu /n)\left|{\frac {dn\nu /n}{d\nu }}\right|\\&=\sum _{\nu =0}^{n}f(\nu /n)f_{K}(\nu )\left|{\frac {d\nu }{d\nu }}\right|\\&=\sum _{\nu =0}^{n}f(\nu )f_{K}(\nu )\left|1\right|\\&=\sum _{\nu =0}^{n}f(\nu )f_{K}(\nu )\\&=\sum _{\nu =0}^{n}f\left({\frac {\nu }{n}}\right){n \choose \nu }x^{\nu }\left(1-x\right)^{n-\nu }\end{aligned}}}