Multiples Testen

Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden

Multiples Testen bezeichnet Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden.

Überblick über Verfahren des multiplen Testens

Bearbeiten

Unter dem Begriff multiples Testen werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des Fehlers 1. Art, das ist die fälschliche Ablehnung einer Nullhypothese, auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein multipler Fehler 1. Art vor.

Multiple Tests mit vorgegebenem globalem Signifikanzniveau

Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls alle Nullhypothesen richtig sind, kontrolliert, d. h. durch ein vorgegebenes Signifikanzniveau   nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau globales Signifikanzniveau. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

Multiple Tests mit vorgegebenem multiplem Signifikanzniveau

Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau  , das dann multiples Signifikanzniveau heißt, nach oben beschränkt.

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.[1][2]

Grundbegriffe

Bearbeiten

Gegeben sei eine Familie von   Test mit den Nullhypothesen   für  , wobei   für   gilt. Die entsprechenden Gegenhypothesen sind   für  . Eine simultane Durchführung der   Tests wird multipler Test genannt.

Multipler Fehler 1. Art

Bearbeiten

Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt. Die übliche Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests ist der multiple Fehler 1. Art, der begangen wird, wenn bei mindestens einem Einzeltest eine Nullhypothese fälschlich abgelehnt wird.

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ multipler Fehler 1. Art.[3]

Multiple Fehlerwahrscheinlichkeit 1. Art

Bearbeiten

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, multiple Fehlerwahrscheinlichkeit 1. Art (engl.: family-wise error rate, FWER)[4] oder versuchsbezogene Irrtumswahrscheinlichkeit[5] (engl.: experimentwise error rate).

Multipler Test zum lokalen Signifikanzniveau

Bearbeiten

Das einfachste Vorgehen beim multiplen Testen ist, jeden Einzeltest mit demselben vorgegebenen Signifikanzniveau durchzuführen, so dass bei jedem Einzeltest die Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt ist.

Definition: Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveau   einhält, für den also

 

gilt, heißt multipler Test zum lokalen Signifikanzniveau  .

Ein multipler Test zum lokalen Signifikanzniveau   kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, da diese durch   nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert. Für einen multiplen Test zum lokalen Signifikanzniveau   sind die Wahrscheinlichkeiten   nicht durch   nach oben beschränkt. Es gilt[6] lediglich die Ungleichung

 

die aber für größere   nicht zu einer praktikablen Beschränkung führt. Z. B. für   wird für   für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff Alphafehler-Kumulierung bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

Multiple Tests zu vorgegebenem globalem Signifikanzniveau

Bearbeiten

Test einer Durchschnittshypothese

Bearbeiten

Zu einer Familie von   Nullhypothesen   mit   für   sei

 

eine nicht-leere Teilmenge von  . Dann heißt die Durchschnittshypothese

 

Globalhypothese und die einzelnen Nullhypothesen heißen in diesem Zusammenhang Elementarhypothesen.[7] Die Globalhypothese   ist falsch, wenn mindestens eine der Hypothesen   falsch ist. Ein Test der Globalhypothese kann daher durch   simultane Tests der Elementarhypothesen erfolgen, wobei   abgelehnt wird, falls mindestens eine der Hypothesen   abgelehnt wird.

Definition: Ein simultaner Test der   Nullhypothesen   mit  , der zu einem vorgegebenen Signifikanzniveau   die Eigenschaft

 

hat, heißt multipler Test zum globalen Signifikanzniveau α.[8]

Konstruktionsverfahren

Bearbeiten

Einen multiplen Test zum globalen Signifikanzniveau   erhält man regelmäßig nicht dadurch, dass man die einzelnen Tests jeweils zum Niveau   durchführt, das es dann zur Alphafehler-Kumulierung kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert   hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der Bonferroni-Korrektur, die für die Durchführung des einzelnen Tests das Niveau   vorschreibt, wodurch das globale Niveau   garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die Šidák-Korrektur angewendet werden, die zu einer Verbesserung gegenüber der Bonferroni-Korrektur führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also

 

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der allgemeinen linearen Hypothese im multiplen linearen Regressionsmodell, die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Bearbeiten

Die Reduktion des Test einer Familie von Hypothesen   auf den Test der Globalhypothese   mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.[9] Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung   nur für alle   gilt, man spricht daher auch von einer schwachen Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls

 

gilt. Für multiple Tests, bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“[10]

Multiple Tests zu vorgegebenem multiplem Signifikanzniveau

Bearbeiten

Gegeben sei eine Familie von   Test mit den Nullhypothesen   für  , wobei   für   gilt.

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle   kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

Definition: Ein simultaner Test der Nullhypothesen   mit der Eigenschaft

 

heißt multipler Test zum multiplen Signifikanzniveau α.[11]

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für  , sondern für alle   kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für   möglich ist, da in   alle Nullhypothesen falsch sind.

Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Bearbeiten

Eine allgemeine Methode, um einen multiplen Test zum multiplen Signifikanzniveau   zu erhalten, ist das Bonferroni-Verfahren, das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus   vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.[12][13][14] Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die Šidák-Korrektur die adjustierten Signifikanzniveaus  , um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.[15]

Das Holm-Verfahren oder Bonferroni-Holm-Verfahren ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.[16][17] Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit dem Simes-Hochberg-Verfahren.[18][19] eine Verbesserung des Bonferroni-Holm-Verfahrens.[20]

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bearbeiten

Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.[21][22]

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau   und einem Parameter   bezeichne   die zufällige Anzahl abgelehnter Nullhypothesen und   die zufällige Anzahl fälschlich abgelehnter Nullhypothesen.[23] Die Zufallsvariablen   und   nehmen Werte in einer Teilmenge von   an, wobei

 

gilt und daher aus   auch   folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann   alle Werte in   annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt  .

Fehlerquote der Ablehnungen

Bearbeiten

Zu einem bestimmten   bezeichnet die Zufallsvariable

 

die zufällige Fehlerquote der Ablehnungen (englisch: false discovery proportion, FDP).[24] Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen. Die Zufallsvariable   hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge  .

Erwartete Fehlerquote der Ablehnungen

Bearbeiten

Der Erwartungswert der Zufallsvariablen  ,

 

ist die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR).[25]

Die erwartete Fehlerquote der Ablehnungen ist im Fall   die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also

 

wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.[26] Die Anforderungen für eine Kontrolle von   durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau   impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen

Bearbeiten

Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das Benjamini-Hochberg-Verfahren[27][28], das allerdings die stochastische Unabhängigkeit der p-Werte voraussetzt. Das Benjamini-Yekutieli-Verfahren[29] ist eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit, die den Fall der stochastischen Unabhängigkeit als Grenzfall enthält.[30]

Güteeigenschaften multipler Tests

Bearbeiten

Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art. Bei multiplen Tests ergeben sich spezielle Gütekriterien aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B.   gilt.

Kohärenz

Bearbeiten

Die Kohärenz[31] eines multiplen Tests verlangt, dass im Fall   aus der Ablehnung von   auch die Ablehnung von   folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“[31]. Beispielsweise darf bei einem simultanen Vergleich von drei Mittelwerten   nicht die Nullhypothese   abgelehnt werden, aber gleichzeitig die Nullhypothese   nicht abgelehnt werden.

Konsonanz

Bearbeiten

Die Konsonanz[31] eines multiplen Test bedeutet im Fall einer Familie von drei Hypothesen mit   und  , dass dann, wenn   abgelehnt wird, auch mindestens eine der stärkeren Hypothesen   und   abgelehnt wird. „Diese Eigenschaft ist für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich.“[31]

Beispielsweise sollte bei einem simultanen Vergleich von drei Mittelwerten   nicht die Konstellation eintreten, dass die Nullhypothese   abgelehnt wird,   abgelehnt werden, aber gleichzeitig die drei Nullhypothesen  ,   und   nicht abgelehnt werden.

Abgeschlossenheit

Bearbeiten

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse Abgeschlossenheit hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen   und   die Menge   nicht-leer ist, auch die Hypothese   in der Hypothesenfamilie enthalten ist.[31]

Trennschärfe

Bearbeiten

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der Trennschärfe oder Macht eines Tests für multiple Tests.[32]

Verschiedene Arten multipler Testung

Bearbeiten

Es gibt verschiedene Arten der multiplen Testung, die sich in der Formulierung der Nullhypothese unterscheiden[33].

Manchmal ist ein multiples Testproblem mit einer abweichenden Notation für die Hypothesen zu finden[34], die beim Vergleich mit der obigen Notation leicht zu Irritationen führt. Es werden dann die   Alternativhypothesen mit   bezeichnet und mit   wird die simultane Verneinung aller Alternativhypothesen   bezeichnet. Beim so definierten multiplen Test ist   richtig, wenn alle   falsch sind, und ist   falsch, wenn mindestens eine der Hypothesen   richtig ist.

Literatur

Bearbeiten

Einzelnachweise und Anmerkungen

Bearbeiten
  1. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  2. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  3. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  4. Der englische Begriff family-wise error rate für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen einen zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.
  5. Ralf Bender, St. Lange, A. Ziegler: Multiples Testen. Artikel Nr. 12 der Statistik-Serie in DMW. In: Deutsche Medizinische Wochenschrift. Band 127, 2002, S. T4–T7 (thieme-connect.de [PDF]).
  6.   bezeichne für jedes   die Menge der wahren Nullhypothesen und   bezeichne das Ereignis „  wird abgelehnt“. Dann ist   das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
     
  7. Thorsten Dickhaus: Multiples Testen. 2022, S. 7.
  8. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 11.
  9. Thorsten Dickhaus: Multiples Testen. 2022, S. 11-12.
  10. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 407.
  11. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  12. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.1, S. 408.
  13. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 3.33.
  14. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.24, S. 13.
  15. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.25, S. 13.
  16. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.2, S. 418.
  17. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 337.
  18. R. J. Simes: An improved Bonferroni procedure for multiple test of significance. In: Biometrika. Band 73, 1986, S. 751–754.
  19. Yosef Hochberg: A sharper Bonferroni procedure for multiple test of significance. In: Biometrika. Band 75, 1988, S. 800–802.
  20. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 339.
  21. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  22. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  23. Thorsten Dickhaus: Multiples Testen. 2022, S. 17.
  24. Thorsten Dickhaus: Multiples Testen. 2022, Def. 135, S. 19.
  25. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.
  26. Thorsten Dickhaus: Multiples Testen. 2022, Lemma 5.2, S. 61.
  27. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.1, S. 435.
  28. Yoav Benjamini, Yosef Hochberg: Controlling the false discovery rate: a practical and powerful approach to multiple testing. In: Journal of the Royal Statistical Society Series B. Band 57, 1995, S. 289–300 (tau.ac.il [PDF]).
  29. Yoav Benjamini, D. Yekutieli: The control of the false discovery rate in multiple testing under dependency. In: Annals of Statistics. Band 28, 2001, S. 1165–1189.
  30. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.2, S. 437.
  31. a b c d e Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 327.
  32. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.
  33. When to adjust alpha during multiple testing: A consideration of disjunction, conjunction, and individual testing https://arxiv.org/abs/2107.02947
  34. Eric W. Weisstein: Bonferroni Correction. In: MathWorld (englisch).