Multipler Korrelationskoeffizient

Der multiple Korrelationskoeffizient ist in der multivariaten Statistik ein Korrelationskoeffizient, welcher die lineare Abhängigkeit zwischen einer Zufallsvariable und einer Menge anderer Zufallsvariablen misst. Konkret bedeutet das für einen Zufallsvektor , dass der multiple Korrelationskoeffizient die maximale Korrelation zwischen einer Zufallsvariable für und jeder beliebigen linearen Funktion von ist. Als Spezialfall erhält man den multiplen Korrelationskoeffizient zwischen und . Im Gegensatz zu den gewöhnlichen Korrelationskoeffizienten liegt der multiple Korrelationskoeffizient zwischen und . Der multiple Korrelationskoeffizient wird mit notiert.

Der multiple Korrelationskoeffizient wurde 1896 von Karl Pearson für drei Variablen eingeführt und 1897 von George Udny Yule erweitert.[1]

Definition

Bearbeiten

Sei   ein Zufallsvektor mit positiv definiter Kovarianzmatrix   und  .

Wir machen folgende Zerlegung

 

Der multiple Korrelationskoeffizient   zwischen   und   ist die maximale Korrelation zwischen   und jeder linearen Funktion  .

In mathematischen Formeln ausgedrückt[2]

 

wobei   die  -te Reihe von   ist und  .

Wendet man die Cauchy-Schwarz-Ungleichung an

 

so erhält man eine Obergrenze, die erreicht wird, wenn  .

Daraus folgt

 [2][3]

Eigenschaften

Bearbeiten
  • Es gilt
 
und  .
  • Man kann zeigen, dass wenn die Regressionsfunktion   eine lineare Funktion ist, dann ist der multiple Korrelationskoeffizient gerade der Korrelationskoeffizient zwischen   und  .[3][2]
  • Es gilt
  wobei  [2]

Spezialfall X1 und X2,...,Xn

Bearbeiten

Möchten wir   herleiten, das heißt den multiplen Korrelationskoeffizient zwischen   und  , dann machen wir folgende Zerlegung

 

da   ein  -dimensionaler Vektor ist, verzichten wir auf die Notation  .

Es gilt dann

 

Multipler Korrelationskoeffizient für eine Stichprobe

Bearbeiten

Seien   unabhängige Stichproben von   und

 

die korrigierte Stichprobenkovarianzmatrix. Dann machen wir folgende Zerlegung

 

und der multiple Korrelationskoeffizient einer Stichprobe ist dann

 

wobei   die  -te Reihe von   ist.

Wenn eine Normalverteilung zugrunde liegt, dann ist   der Maximum-Likelihood-Schätzer von  .[3]

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Theodore Wilbur Anderson: Multivariate Analysis and Its Applications. Hrsg.: Wiley. 2003, ISBN 978-0-940600-35-5, S. 33.
  2. a b c d Theodore Wilbur Anderson: Multivariate Analysis and Its Applications. Hrsg.: Wiley. 2003, ISBN 978-0-940600-35-5, S. 38.
  3. a b c Robb J. Muirhead: Aspects of Multivariate Statistical Theory. Hrsg.: Wiley, Deutschland. 2009, S. 164–167.