Punktbiseriale Korrelation

Als punktbiseriale Korrelation wird der Korrelationskoeffizient für den Zusammenhang zwischen einem intervallskalierten Merkmal $I$ und einem dichotomen (bernoulliverteilten) Merkmal $D$ bezeichnet. Es handelt sich nicht um eine eigenständige Maßzahl, sondern um einen Spezialfall des gewöhnlichen Korrelationskoeffizienten nach Pearson, der in diesem Fall berechnet werden kann als

\rho ={\frac {{\overline {I}}_{D=1}-{\overline {I}}_{D=0}}{\sqrt {\mathrm {QS} (I)}}}\cdot {\sqrt {n\cdot p\cdot q}}

,

wobei $\mathrm {QS}$ die Quadratsumme, $n$ den Stichprobenumfang, $p$ den Anteil der Untersuchungseinheiten mit der in D erfassten Eigenschaft und $q$ den Anteil der Untersuchungseinheiten ohne die in D erfasste Eigenschaft bezeichnet.

Herleitung aus der Pearson-Korrelation

Der Einfachheit halber wird angenommen, dass das dichotome Merkmal $D$ die Werte 0 und 1 annimmt, sodass der Mittelwert in $D$ gleich $p$ ist. Nach der allgemeinen Formel berechnet sich die Korrelation zwischen $I$ und $D$ über

\rho ={\frac {\sum _{i=1}^{n}(I_{i}-{\bar {I}})(D_{i}-{\bar {D}})}{\sqrt {\mathrm {QS} (I)\cdot \mathrm {QS} (D)}}}

.

Man kann nun eine Fallunterscheidung treffen: $n\cdot p$ Untersuchungseinheiten sind D=1 und liegen mit $1-p=q$ über dem Mittelwert in D, die übrigen $n\cdot q$ Untersuchungseinheiten sind D=0 und liegen mit $0-p=-p$ unter dem Mittelwert in D. Damit gilt

\rho ={\frac {n\cdot p\cdot ({\bar {I}}_{D=1}-{\bar {I}})\cdot q+n\cdot q\cdot ({\bar {I}}_{D=0}-{\bar {I}})\cdot (-p)}{\sqrt {\mathrm {QS} (I)\cdot (n\cdot p\cdot q^{2}+n\cdot q\cdot (-p)^{2})}}}

,

was sich über

\rho ={\frac {n\cdot p\cdot q\cdot ({\bar {I}}_{D=1}-{\bar {I}}_{D=0})}{\sqrt {\mathrm {QS} (I)\cdot (n\cdot p\cdot q)}}}

zur obigen Gleichung vereinfachen lässt.

Anwendung in gängiger Statistiksoftware

SPSS und R verwenden automatisch die punktbiseriale Rechenweise, wenn die Befehle CORRELATE bzw. cor, cor.test angefordert werden und eine der Variablen nur zwei Ausprägungen (z. B. die Werte 0 und 1) hat, die auch als berechnungsrelevant angesehen werden (−7 oder 99 z. B. können in SPSS als fehlende Werte markiert und somit ignoriert werden).

Literatur

Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, Berlin u. a. 2005, ISBN 3-540-21271-X.
J. Cohen, P. Cohen, S. G. West, L. S. Aiken: Applied Multiple Regression / Correlation Analysis For The Behavioral Sciences. London 2003, ISBN 0-8058-2223-2.