McNemar-Test

Der McNemar-Test ist ein statistischer Test für verbundene Stichproben, bei denen ein dichotomes Merkmal betrachtet wird, wie es z. B. bei einer Vierfeldertafel vorkommen kann. Verbundene Stichproben liegen dann vor, wenn zwischen den Beobachtungen ein Zusammenhang besteht, man z. B. im Rahmen der medizinischen Statistik an Patienten einen Vorher-Nachher-Vergleich vornimmt.

Mathematische Formulierung

Stichprobe 2	0	1
	Stichprobe 1
0	$a$	$b$	$a+b$
1	$c$	$d$	$c+d$
	$a+c$	$b+d$	$n$

Der McNemar-Test prüft bei einer verbundenen Stichprobe, ob eine Veränderung eingetreten ist. Wenn es keine Veränderungen gab, dann müssten $a+b\approx a+c$ bzw. $c+d\approx b+d$ sein. Für die Wahrscheinlichkeiten $p_{\bullet }$ des Auftretens von $(0,0)$ etc. ergibt sich folgende mathematischen Formulierung der Hypothesen:

H_{0}:p_{a}+p_{c}=p_{a}+p_{b}

H_{1}:p_{a}+p_{c}\neq p_{a}+p_{b}

bzw. auf die äquivalenten Hypothesen

H_{0}:p_{c}=p_{b}

H_{1}:p_{c}\neq p_{b}

Exakter Test

Für den exakten Test werden die Beobachtungen „links unten“ und „rechts oben“ in der Kontingenztabelle als zufällige Ziehungen betrachtet mit den beiden möglichen Ergebnissen „links unten“ und „rechts oben“. Wenn $\pi$ die Wahrscheinlichkeit ist, dass eine Beobachtung „links unten“ landet, dann übersetzen sich die Hypothesen des McNemar-Tests in die Hypothesen eines Binomialtests

H_{0}:\pi =0{,}5

H_{1}:\pi \neq 0{,}5

Die Teststatistik $B$ : „Anzahl der Beobachtung rechts oben“ ist dann binomialverteilt mit $B(b+c;0{,}5)$ (analog für $C$ ).

Der exakte Test wird z. B. in SPSS bei Aufruf des McNemar-Tests verwendet, wenn $b+c<25$ ist.

χ²-Teststatistiken

McNemar (1947) benutzte einen $\chi ^{2}$ -Test, um das Testproblem zu lösen.^[1] Unter Gültigkeit der Nullhypothese sind die erwarteten Zellhäufigkeiten gerade ${\tfrac {b+c}{2}}$ , also ergibt sich die Teststatistik

{\hat {X}}^{'2}={\frac {(b-{\tfrac {b+c}{2}})^{2}}{\tfrac {b+c}{2}}}+{\frac {(c-{\tfrac {b+c}{2}})^{2}}{\tfrac {b+c}{2}}}={\frac {(b-c)^{2}}{b+c}}

.

Diese Teststatistik ist approximativ $\chi ^{2}$ verteilt mit einem Freiheitsgrad.

Yates-Korrektur

Da die Häufigkeiten diskret sind, ist auch die Teststatistik $X^{'2}$ diskret verteilt. Da die $\chi ^{2}$ -Verteilung eine stetige Verteilung ist, gibt es einen Approximationsfehler. Um diesen Approximationsfehler zu verkleinern hat Yates eine generelle Stetigkeitskorrektur vorgeschlagen. Damit ergibt sich die folgende Teststatistik:^[2]

{\hat {X}}^{2}={\frac {(|b-c|-0{,}5)^{2}}{b+c}}

.

Der Subtrahend 0,5 ist die sogenannte Yates-Korrektur. Unter der Voraussetzung einer symmetrischen Verteilung der beiden zu testenden Variablen bzw. Stichproben, verbessert die Minderung des Betrags der Abweichung (b-c) um 0,5 die Approximation der berechneten $\chi ^{2}$ -verteilten Prüfgröße an die Ergebnisse des exakten Tests nach Fisher.^[3]

Sie ist vor allem für kleinere Stichproben nötig ( $b+c<30$ ) und kann bei größeren Stichproben weggelassen werden.

Edwards-Korrektur

Die Yates-Korrektur ist ursprünglich für 2x2-Kreuztabellen entwickelt worden. Beim McNemar-Test wird jedoch faktisch eine 2x1-Kreuztabelle betrachtet, und man kann zeigen, dass die obige Teststatistik mit der Yates-Korrektur zu stark korrigiert.^[4] Deswegen wird oft auch die Korrektur von Edwards verwendet:^[5]

{\hat {X}}^{*2}={\frac {(\left|b-c\right|-1)^{2}}{b+c}}.

z. B. in SPSS und R wird beim McNemar-Test mit Stetigkeitskorrektur die Edwards-Korrektur verwendet. Die Frage der Größe des Subtrahenden für die Stetigkeitskorrektur spielt ohnehin nur bei kleinen Stichprobenumfängen eine Rolle.

Vorgehen

	Stichprobe 1 positiv	Stichprobe 1 negativ
Stichprobe 2 positiv	a	b
Stichprobe 2 negativ	c	d

Um zu vergleichen, ob sich die Häufigkeiten in den Stichproben wesentlich unterscheiden, betrachtet man das Verhältnis des Unterschieds zwischen den beiden Stichproben, die bei beiden Stichproben unterschiedliche Ergebnisse hatten, im Beispiel also b und c zur Summe der beiden Werte. Die so ermittelte Prüfgröße wird mit den Werten der $\chi ^{2}$ -Verteilung für 1 Freiheitsgrad und das entsprechende Konfidenzniveau (meist 95 %-Konfidenzniveau bzw. 5 %-Signifikanzniveau) verglichen. Die genaue Rechenvorschrift lautet:

{\hat {\mathrm {X} }}^{2}={\frac {(\left|b-c\right|-0{,}5)^{2}}{b+c}}

Ist die errechnete Prüfgröße gleich groß wie oder größer als der Vergleichswert der $\chi ^{2}$ -Verteilung (für 1 Freiheitsgrad und 95-%-Quantil z. B. 3,84), so kann man davon ausgehen, dass ein statistisch signifikanter Unterschied zwischen den beiden Stichproben besteht und dass ein Ergebnis (positiv oder negativ) in einer der Gruppen so gehäuft eintritt, dass ein rein zufälliger Unterschied mit großer Sicherheit (bei 95-%-Konfidenzniveau stimmt die erhaltene Aussage z. B. in 95 % der Fälle mit der Wirklichkeit überein) ausgeschlossen werden kann.

Ob diese Signifikanz eine Verbesserung oder Verschlechterung bedeutet, sagt der Test an sich nicht aus. Denn der McNemar-Test kann nur zweiseitig durchgeführt werden (er überprüft, ob Veränderungen bestehen – nicht, ob Erhöhung oder Reduzierung der Häufigkeiten auftreten). Die Richtung der Veränderung kann jedoch leicht aus den Daten erschlossen werden, je nachdem, ob größere Häufigkeiten in Feld b oder c auftreten.

Liegen stetige Daten vor oder diskrete Daten mit zu vielen Merkmalsklassen, verwendet man oft die Mediandichotomisierung, um die Daten mit dem McNemar-Test überprüfen zu können.

Beispiel

Raucher

Es soll untersucht werden, ob eine Anti-Rauch-Kampagne erfolgreich die Anzahl der Raucher reduziert. Dafür erfasst man zunächst in Stichproben die Anzahl der Raucher vor und nach der Kampagne. In obiger Tabelle gibt Stichprobe 1 die Messung vor und Stichprobe 2 die Messung nach der Kampagne an. Um nun zu vergleichen, ob sich eine signifikante Veränderung der Zahl der Raucher ergeben hat, interessieren nur die „Wechsler“, also die Personen, deren Rauchverhalten sich zwischen den beiden Messungen verändert hat. Diese Häufigkeiten finden sich in den Tabellenfeldern b und c. Wenn die Kampagne keinen Einfluss auf die Rauchgewohnheiten hätte, dann sollte es zufalls- bzw. störeinflussbedingt genauso viele Raucher geben, die zu Nichtrauchern werden, wie Nichtraucher, die zu Rauchern werden. Genau dieser Grundgedanke wird vom McNemar-Test überprüft (siehe obige Formel).

Allein aus einem signifikanten Unterschied der Prüfgröße des McNemar-Tests kann allerdings nicht ohne weiteres direkt geschlossen werden, dass die Zahl der Raucher abgenommen hat, da wie gesagt nur ungerichtet auf signifikante Unterschiede untersucht wird, der McNemar-Test besagt zuerst also nur, dass eine Veränderung stattgefunden hat, nicht aber in welche Richtung. Das heißt, selbst wenn durch die Kampagne die Zahl der Raucher wesentlich zugenommen hätte, würde der McNemar-Test hier einen Unterschied zeigen. Um solche Fehlinterpretationen zu vermeiden, muss man sich die ermittelten Werte für b und c näher ansehen. In diesem Fall müsste b deutlich kleiner sein als c, da c für die Raucher steht, die zu Nichtrauchern geworden sind.

Autofreier Sonntag

	Meinung nach dem autofreien Sonntag		Total
Meinung vor dem autofreien Sonntag	Dafür	Dagegen
Dafür	8	5	13
Dagegen	16	11	27
Total	24	16	40

40 Personen wurden vor einem autofreien Sonntag befragt, ob sie gegen oder für einen autofreien Sonntag sind. Nach einem autofreien Sonntag werden dieselben Personen erneut befragt (= verbundene Stichprobe). Ziel ist es zu prüfen, ob das Erleben eines autofreien Sonntags eine signifikante Veränderung in der Auffassung verursacht hat. Die 8 bzw. 11 Befragten, deren Meinung sich nicht geändert hat, sagen nichts über mögliche Veränderungen in der Auffassung aus. Geprüft wird, ob sich die Änderungen von dafür nach dagegen bzw. von dagegen nach dafür die Waage halten oder nicht:

H_{0}:p_{{\text{dafür}}\rightarrow {\text{dagegen}}}=p_{{\text{dagegen}}\rightarrow {\text{dafür}}}

vs.

H_{1}:p_{{\text{dafür}}\rightarrow {\text{dagegen}}}\neq p_{{\text{dagegen}}\rightarrow {\text{dafür}}}

Mit $b=5$ und $c=16$ ergeben sich folgende Prüfwerte:

$v={\frac {(\left|5-16\right|-0{,}5)^{2}}{5+16}}=5{,}2500$ bzw.
$v^{*}={\frac {(\left|5-16\right|-1)^{2}}{5+16}}=4{,}7619$ .

Für ein Signifikanzniveau von $\alpha =5\,\%$ ergibt sich ein kritischer Wert von $\chi _{1;0{,}95}^{2}=3{,}84$ . Da beide Prüfwerte, $v$ und $v^{*}$ , größer als der kritische Wert sind, wird die Nullhypothese in beiden Fällen abgelehnt. D. h., es gibt eine signifikante Veränderung in den Auffassungen.

Beim exakten Test ist $B:$ „Anzahl der geänderten Meinungen von dafür nach dagegen“ unter der obigen Nullhypothese binomialverteilt, folgt also einer Binomialverteilung $B(n=b+c;p=0{,}5)$ (analog für $C$ ). Die kritischen Werte ergeben sich hier zu 6 und 15, d. h., liegt $b$ oder $c$ im Intervall $[6;15]$ , dann kann die Nullhypothese nicht verworfen werden. Auch mit dem exakten Test wird also die Nullhypothese verworfen.

Verfahren	Berechneter $p$ -Wert
Exakter Test	0,0266
Stetigkeitskorrektur nach Edwards mit $-1$	0,0291
Stetigkeitskorrektur nach Yates mit $-0{,}5$	0,0219

Siehe auch

Vierfeldertest

Literatur

Christel Weiß: Basiswissen Medizinische Statistik. 3. Auflage. Springer, Berlin 2005, ISBN 3-540-24072-1.

Einzelnachweise

↑ Quinn McNemar: Note on the sampling error of the difference between correlated proportions or percentages. In: Psychometrika. Band 12, Nr. 2, 18. Juni 1947, S. 153–157, doi:10.1007/BF02295996, PMID 20254758.
↑ F. Yates: Contingency tables involving small numbers and the χ ² test. In: Journal of the Royal Statistical Society. 1, 1934, S. 217–235, (Supplement) doi:10.2307/2983604, JSTOR:2983604.
↑ F. Yates: Tests of significance for 2 × 2 contingency tables. In: Journal of the Royal Statistical Society. 147, 1984, S. 426–463, (Series A). doi:10.2307/2981577, JSTOR:i349611
↑ Catalina Stefanescu, Vance W. Berger, Scott Hershberger: Yates’s continuity correction. In: B. Everitt, D. Howell (Hrsg.): The Encyclopedia of Behavioral Statistics. John Wiley & Sons, 2005 (london.edu [PDF]).
↑ Allen L. Edwards: Note on the correction for continuity in testing the significance of the difference between correlated proportions. In: Psychometrika. Band 13, Nr. 3, 1948, S. 185–187, doi:10.1007/BF02289261.

[McNemar1947-1] Quinn McNemar: Note on the sampling error of the difference between correlated proportions or percentages. In: Psychometrika. Band 12, Nr. 2, 18. Juni 1947, S. 153–157, doi:10.1007/BF02295996, PMID 20254758.

[2] F. Yates: Contingency tables involving small numbers and the χ ² test. In: Journal of the Royal Statistical Society. 1, 1934, S. 217–235, (Supplement) doi:10.2307/2983604, JSTOR:2983604.

[3] F. Yates: Tests of significance for 2 × 2 contingency tables. In: Journal of the Royal Statistical Society. 147, 1984, S. 426–463, (Series A). doi:10.2307/2981577, JSTOR:i349611

[4] Catalina Stefanescu, Vance W. Berger, Scott Hershberger: Yates’s continuity correction. In: B. Everitt, D. Howell (Hrsg.): The Encyclopedia of Behavioral Statistics. John Wiley & Sons, 2005 (london.edu [PDF]).

[5] Allen L. Edwards: Note on the correction for continuity in testing the significance of the difference between correlated proportions. In: Psychometrika. Band 13, Nr. 3, 1948, S. 185–187, doi:10.1007/BF02289261.

[1]

[2]

[3]

[4]

[5]