Der multiple Korrelationskoeffizient ist in der multivariaten Statistik ein Korrelationskoeffizient , welcher die lineare Abhängigkeit zwischen einer Zufallsvariable und einer Menge anderer Zufallsvariablen misst. Konkret bedeutet das für einen Zufallsvektor
(
X
1
,
…
,
X
n
)
T
{\displaystyle (X_{1},\dots ,X_{n})^{\mathrm {T} }}
, dass der multiple Korrelationskoeffizient die maximale Korrelation zwischen einer Zufallsvariable
X
i
{\displaystyle X_{i}}
für
i
≤
k
{\displaystyle i\leq k}
und jeder beliebigen linearen Funktion von
X
k
+
1
,
…
,
X
n
{\displaystyle X_{k+1},\dots ,X_{n}}
ist. Als Spezialfall erhält man den multiplen Korrelationskoeffizient zwischen
X
1
{\displaystyle X_{1}}
und
X
2
,
…
,
X
n
{\displaystyle X_{2},\dots ,X_{n}}
. Im Gegensatz zu den gewöhnlichen Korrelationskoeffizienten liegt der multiple Korrelationskoeffizient zwischen
0
{\displaystyle 0}
und
1
{\displaystyle 1}
. Der multiple Korrelationskoeffizient wird mit
R
¯
i
⋅
(
k
+
1
⋯
n
)
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}}
notiert.
Der multiple Korrelationskoeffizient wurde 1896 von Karl Pearson für drei Variablen eingeführt und 1897 von George Udny Yule erweitert.[ 1]
Sei
X
=
(
X
1
,
X
2
,
…
,
X
n
)
T
{\displaystyle \mathbf {X} =(X_{1},X_{2},\dots ,X_{n})^{\mathrm {T} }}
ein Zufallsvektor mit positiv definiter Kovarianzmatrix
Σ
{\displaystyle {\boldsymbol {\Sigma }}}
und
1
≤
i
≤
k
<
n
{\displaystyle 1\leq i\leq k<n}
.
Wir machen folgende Zerlegung
X
=
(
X
1
X
2
)
,
Σ
=
(
Σ
11
Σ
12
Σ
21
Σ
22
)
,
X
1
=
(
X
1
,
…
,
X
k
)
T
,
X
2
=
(
X
k
+
1
,
…
,
X
n
)
T
.
{\displaystyle \mathbf {X} ={\begin{pmatrix}\mathbf {X} _{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\{\boldsymbol {\Sigma }}_{21}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},\qquad \mathbf {X_{1}} =(X_{1},\dots ,X_{k})^{\mathrm {T} },\quad \mathbf {X_{2}} =(X_{k+1},\dots ,X_{n})^{\mathrm {T} }.}
Der multiple Korrelationskoeffizient
R
¯
i
⋅
(
k
+
1
⋯
n
)
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}}
zwischen
X
i
{\displaystyle X_{i}}
und
X
k
+
1
,
…
,
X
n
{\displaystyle X_{k+1},\dots ,X_{n}}
ist die maximale Korrelation zwischen
X
i
{\displaystyle X_{i}}
und jeder linearen Funktion
α
T
X
2
{\displaystyle {\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} }
.
In mathematischen Formeln ausgedrückt[ 2]
R
¯
i
⋅
(
k
+
1
⋯
n
)
:=
max
α
Cov
(
X
i
,
α
T
X
2
)
(
Var
(
X
i
)
Var
(
α
T
X
2
)
)
1
/
2
=
max
α
α
T
σ
i
(
σ
i
i
α
T
Σ
22
α
)
1
/
2
,
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}:=\max \limits _{\boldsymbol {\alpha }}{\frac {\operatorname {Cov} (X_{i},{\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )}{\left(\operatorname {Var} (X_{i})\operatorname {Var} ({\boldsymbol {\alpha }}^{\mathrm {T} }\mathbf {X_{2}} )\right)^{1/2}}}=\max \limits _{\boldsymbol {\alpha }}{\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}},}
wobei
σ
i
T
{\displaystyle {\boldsymbol {\sigma }}_{i}^{\mathrm {T} }}
die
i
{\displaystyle i}
-te Reihe von
Σ
12
{\displaystyle {\boldsymbol {\Sigma }}_{12}}
ist und
Var
(
X
i
)
=
σ
i
i
{\displaystyle \operatorname {Var} (X_{i})=\sigma _{ii}}
.
Wendet man die Cauchy-Schwarz-Ungleichung an
α
T
σ
i
(
σ
i
i
α
T
Σ
22
α
)
1
/
2
=
α
T
Σ
22
1
/
2
Σ
22
−
1
/
2
σ
i
(
σ
i
i
α
T
Σ
22
α
)
1
/
2
≤
(
α
T
Σ
22
α
)
1
/
2
(
σ
i
T
Σ
22
−
1
σ
i
)
1
/
2
(
σ
i
i
α
T
Σ
22
α
)
1
/
2
=
(
σ
i
T
Σ
22
−
1
σ
i
σ
i
i
)
1
/
2
,
{\displaystyle {\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}={\frac {{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{1/2}{\boldsymbol {\Sigma }}_{22}^{-1/2}{\boldsymbol {\sigma }}_{i}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}\leq {\frac {\left({\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }}\right)^{1/2}\left({\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}\right)^{1/2}}{(\sigma _{ii}{\boldsymbol {\alpha }}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}{\boldsymbol {\alpha }})^{1/2}}}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2},}
so erhält man eine Obergrenze, die erreicht wird, wenn
α
=
Σ
22
−
1
σ
i
{\displaystyle {\boldsymbol {\alpha }}={\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}
.
Daraus folgt
R
¯
i
⋅
(
k
+
1
⋯
n
)
=
(
σ
i
T
Σ
22
−
1
σ
i
σ
i
i
)
1
/
2
.
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{i}}{\sigma _{ii}}}\right)^{1/2}.}
[ 2] [ 3]
0
≤
R
¯
i
⋅
(
k
+
1
⋯
n
)
≤
1
{\displaystyle 0\leq {\overline {R}}_{i\cdot (k+1\cdots n)}\leq 1}
und
R
¯
i
⋅
(
k
+
1
⋯
n
)
=
0
⟺
Σ
12
=
0
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}=0\iff {\boldsymbol {\Sigma }}_{12}=\mathbf {0} }
.
Man kann zeigen, dass wenn die Regressionsfunktion
E
[
X
i
∣
X
2
]
{\displaystyle \mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]}
eine lineare Funktion ist, dann ist der multiple Korrelationskoeffizient gerade der Korrelationskoeffizient zwischen
X
i
{\displaystyle X_{i}}
und
E
[
X
i
∣
X
2
]
{\displaystyle \mathbb {E} [X_{i}\mid \mathbf {X_{2}} ]}
.[ 3] [ 2]
Es gilt
1
−
R
¯
i
⋅
(
k
+
1
⋯
n
)
2
=
det
(
Σ
i
)
σ
i
i
det
(
Σ
22
)
,
{\displaystyle 1-{\overline {R}}_{i\cdot (k+1\cdots n)}^{2}={\frac {\operatorname {det} ({\boldsymbol {\Sigma }}_{i})}{\sigma _{ii}\operatorname {det} ({\boldsymbol {\Sigma }}_{22})}},\quad }
wobei
Σ
i
:=
(
σ
i
i
σ
i
T
σ
i
Σ
i
i
)
.
{\displaystyle \quad {\boldsymbol {\Sigma }}_{i}:={\begin{pmatrix}\sigma _{ii}&{\boldsymbol {\sigma }}_{i}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{i}&{\boldsymbol {\Sigma }}_{ii}\end{pmatrix}}.}
[ 2]
Möchten wir
R
¯
1
⋅
(
2
⋯
n
)
{\displaystyle {\overline {R}}_{1\cdot (2\cdots n)}}
herleiten, das heißt den multiplen Korrelationskoeffizient zwischen
X
1
{\displaystyle X_{1}}
und
X
2
,
…
,
X
n
{\displaystyle X_{2},\dots ,X_{n}}
, dann machen wir folgende Zerlegung
X
=
(
X
1
X
2
)
,
Σ
=
(
σ
11
σ
12
T
σ
12
Σ
22
)
,
{\displaystyle \mathbf {X} ={\begin{pmatrix}X_{1}\\\mathbf {X} _{2}\end{pmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{11}&{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }\\{\boldsymbol {\sigma }}_{12}&{\boldsymbol {\Sigma }}_{22}\end{pmatrix}},}
da
σ
12
{\displaystyle {\boldsymbol {\sigma }}_{12}}
ein
(
n
−
1
)
×
1
{\displaystyle (n-1)\times 1}
-dimensionaler Vektor ist, verzichten wir auf die Notation
Σ
12
{\displaystyle {\boldsymbol {\Sigma }}_{12}}
.
Es gilt dann
R
¯
1
⋅
(
2
⋯
n
)
=
(
σ
12
T
Σ
22
−
1
σ
12
σ
11
)
1
/
2
.
{\displaystyle {\overline {R}}_{1\cdot (2\cdots n)}=\left({\frac {{\boldsymbol {\sigma }}_{12}^{\mathrm {T} }{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\sigma }}_{12}}{\sigma _{11}}}\right)^{1/2}.}
Multipler Korrelationskoeffizient für eine Stichprobe
Bearbeiten
Seien
X
1
,
…
,
X
N
{\displaystyle \mathbf {X} _{1},\dots ,\mathbf {X} _{N}}
unabhängige Stichproben von
X
{\displaystyle \mathbf {X} }
und
S
=
1
(
N
−
1
)
∑
i
=
1
N
(
X
i
−
X
¯
)
(
X
i
−
X
¯
)
T
{\displaystyle \mathbf {S} ={\frac {1}{(N-1)}}\sum \limits _{i=1}^{N}(\mathbf {X} _{i}-{\overline {\mathbf {X} }})(\mathbf {X} _{i}-{\overline {\mathbf {X} }})^{\mathrm {T} }}
die korrigierte Stichprobenkovarianzmatrix .
Dann machen wir folgende Zerlegung
S
=
(
S
11
S
12
S
21
S
22
)
{\displaystyle \mathbf {S} ={\begin{pmatrix}\mathbf {S} _{11}&\mathbf {S} _{12}\\\mathbf {S} _{21}&\mathbf {S} _{22}\end{pmatrix}}}
und der multiple Korrelationskoeffizient einer Stichprobe ist dann
R
i
⋅
(
k
+
1
⋯
n
)
=
(
s
i
T
S
22
−
1
s
i
s
i
i
)
1
/
2
,
{\displaystyle R_{i\cdot (k+1\cdots n)}=\left({\frac {\mathbf {s} _{i}^{\mathrm {T} }{\boldsymbol {S}}_{22}^{-1}\mathbf {s} _{i}}{s_{ii}}}\right)^{1/2},}
wobei
s
i
T
{\displaystyle \mathbf {s} _{i}^{\mathrm {T} }}
die
i
{\displaystyle i}
-te Reihe von
S
12
{\displaystyle \mathbf {S} _{12}}
ist.
Wenn eine Normalverteilung zugrunde liegt, dann ist
R
i
⋅
(
k
+
1
⋯
n
)
{\displaystyle R_{i\cdot (k+1\cdots n)}}
der Maximum-Likelihood-Schätzer von
R
¯
i
⋅
(
k
+
1
⋯
n
)
{\displaystyle {\overline {R}}_{i\cdot (k+1\cdots n)}}
.[ 3]