Alphafehler-Kumulierung

Begriff aus der Statistik

Die Alphafehler-Kumulierung, häufig auch α-Fehler-Inflation genannt, bezeichnet in der Statistik die Erhöhung der globalen Alpha-Fehler-Wahrscheinlichkeit (Fehlerwahrscheinlichkeit 1. Art) durch multiples Testen in derselben Stichprobe. Je mehr richtige Hypothesen man auf einem Datensatz mit einem fixierten Signifikanzniveau testet, umso größer wird die Wahrscheinlichkeit, dass mindestens eine dieser Hypothesen (fälschlich) abgelehnt wird.

Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Multiples Testen

Bearbeiten

Oft wird in einer Studie nicht nur eine Nullhypothese festgelegt, sondern man will mehrere Fragen mittels der gewonnenen Daten beantworten. Dies können weitere Nullhypothesen, aber auch Konfidenzintervalle oder Schätzwerte sein.

Unter multiplem Testen versteht man die simultane Durchführung mehrerer Tests. Bei einem einfachen Testproblem wird eine Nullhypothese   und eine Gegenhypothese   betrachtet. Im Fall des multiplen Testens werden mehrere Nullhypothesen   mit zugehörigen Gegenhypothesen   untersucht.[1][2] Multiples Testen wirft im Vergleich zur Durchführung eines einzelnen Tests mehrere Aufgaben auf:

  1. Die Konzepte des Fehlers 1. Art (auch α-Fehler genannt) und der Fehlerwahrscheinlichkeit 1. Art müssen auf multiple Tests verallgemeinert werden. Dies erfolgt durch die Konzepte des multiplen Fehlers 1. Art und der multiplen Fehlerwahrscheinlichkeit 1. Art.
  2. Die betrachtete Familie der Hypothesen und die Tests sollte bestimmte Konsistenzbedingungen erfüllen, z. B. Kohärenz, Konsonanz und Abgeschlossenheit.
  3. Die vorgegebenen Signifikanzniveaus müssen für mehrere Tests aufeinander abgestimmt werden. Im Zusammenhang mit dieser Fragestellung wird die Alphafehler-Kumulierung relevant.

Inflation des Alphafehlers oder Alphafehler-Kumulierung

Bearbeiten

Die sogenannte Inflation des α-Fehlers oder Alphafehler-Kumulierung beim multiplen Testen soll anhand eines Beispiels illustriert werden: Betrachtet werden   unabhängige Tests mit einfacher Nullhypothese, für die jeweils das geforderte Signifikanzniveau   ausgeschöpft wird, so dass jeweils die Fehlerwahrscheinlichkeit 1. Art mit dem Signifikanzniveau zusammenfällt. Wenn alle Nullhypothese wahr sind, ist die Wahrscheinlichkeit, dass mindestens eine der Nullhypothesen ablehnt wird, d. h. die multiple Fehlerwahrscheinlichkeit 1. Art   Die Berechnung erfolgt mit Hilfe der entsprechenden Gegenwahrscheinlichkeit und der Multiplikation von Wahrscheinlichkeiten bei stochastischer Unabhängigkeit. Die multiple Fehlerwahrscheinlichkeit 1. Art nimmt mit zunehmender Zahl von Tests zu. Für wachsendes   wächst die multiple Fehlerwahrscheinlichkeit 1. Art und nähert sich für   der Zahl 1.

Hier fehlt eine Grafik, die leider im Moment aus technischen Gründen nicht angezeigt werden kann. Wir arbeiten daran!
Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, bei  , in Abhängigkeit von der Anzahl   durchgeführter unabhängiger Tests.

Bei multiplen Testproblemen werden das lokale (nur die einzelne Hypothese betreffende) α-Niveau und das globale α-Niveau (für die gesamte Hypothesenfamilie) unterschieden. Es gibt mehrere Methoden für die Anpassung (Adjustierung) des lokalen α-Niveaus. So wird bei der Bonferroni-Korrektur das globale α-Niveau durch die Zahl der Tests geteilt um das lokale α-Niveau zu erhalten. Dadurch sinkt das Alpha-Risiko entsprechend:

 .

Noch genauer wäre die Šidák-Korrektur anzuwenden und für jede Nullhypothese das lokale α auf der Basis des globalen Niveaus nach folgender Formel anzupassen:   mit k= Anzahl der Einzelhypothesen. Daneben gibt es auch noch andere Methoden der Adjustierung, siehe z. B. Falscherkennungsrate.

Adjustierung des globalen α-Niveaus

Bearbeiten

Wie aber kann man dieser α-Fehler-Inflation entgegenwirken bzw. sie korrigieren?

Bonferroni-Korrektur

Bearbeiten

Die Bonferroni-Korrektur ist die einfachste und konservativste Form, das multiple α-Niveau anzupassen.[3] Dabei wird das globale α-Niveau zu gleichen Teilen auf die Einzeltests verteilt:

 

jeder Einzeltest wird also mit dem Niveau   (und nicht  ) durchgeführt. Daraus folgt mittels der Bonferroni-Ungleichung, dass die Ungleichung

 

erfüllt ist. Aus dem lokalen Niveau   ergibt sich also das globale Niveau  . Die sehr konservative Vorgehensweise bei der Bonferroni-Korrektur hat den Nachteil, dass das Ergebnis einen sehr geringen p-Wert aufweisen muss, um als statistisch signifikant gelten zu können. Dies versuchen Weiterentwicklungen wie die Bonferroni-Holm-Prozedur zu vermeiden.

Bonferroni-Holm-Prozedur

Bearbeiten

Eine Erweiterung der Bonferroni-Korrektur stellt die Bonferroni-Holm-Prozedur[4] dar. Dabei kommt folgender Algorithmus zum Tragen:

  1. Festlegung des globalen α-Niveaus  
  2. Durchführung aller Einzeltests und Ermittlung der p-Werte
  3. Sortieren der p-Werte vom Kleinsten zum Größten
  4. Berechnung der lokalen α-Niveaus als Verhältnis von globalem α-Niveau zur Anzahl der Tests - i, wobei gilt:
     ,  ,  ,  
  5. Vergleiche die p-Werte mit den berechneten sortierten lokalen α-Niveaus (beginnend mit  ) und wiederhole diesen Schritt so oft, bis der p-Wert größer ist als der zugehörige   Wert.
  6. Alle Nullhypothesen, deren p kleiner als der lokale α-Wert waren, werden zurückgewiesen (bedeutet: der Effekt ist signifikant, es wird davon ausgegangen, dass die Alternativhypothese zutrifft). Die Prozedur endet mit derjenigen Nullhypothese, deren p größer als das lokale α-Niveau ist. Alle folgenden Nullhypothesen werden nicht zurückgewiesen (unter dem globalen α-Niveau).

Die Bonferroni-Holm-Prozedur ist weniger konservativ als die Bonferroni-Korrektur. Nur der erste Test muss auf dem bei der Bonferroni-Korrektur erforderlichen Niveau statistisch signifikant sein, danach sinkt das nötige Niveau stetig. Allerdings weist auch diese Prozedur ebenso wie die Bonferroni-Korrektur den Nachteil auf, dass eventuelle logische und stochastische Abhängigkeiten zwischen den Teststatistiken nicht genutzt werden.

Šidák-Korrektur

Bearbeiten

Die Šidák-Korrektur kann angewendet werden, falls die einzelnen Tests stochastisch unabhängig sind oder falls die Teststatistiken insgesamt einer multivariaten Normalverteilung folgen und die Ablehnbereiche der einzelnen Teststatistiken symmetrisch zum jeweiligen Erwartungswert sind. Die Signifikanzniveaus der einzelnen Tests werden als

 

festgelegt, um das globale Niveau   zu garantieren.

Weitere Methoden

Bearbeiten

Neben den beschriebenen Adjustierungen existieren noch weitere Möglichkeiten der Anpassung an ein globales α-Niveau. Dazu gehören beispielsweise:

Einzelnachweise

Bearbeiten
  1. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, Chapter 9: Multiple Testing and Simultaneous Inference, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).
  2. Thorsten Dickhaus: Multiples Testen – Skript zur Lehrveranstaltung. Hrsg.: Universität Bremen, Institut für Statistik. Bremen 2022 (uni-bremen.de [PDF; abgerufen am 13. Januar 2023] Version: 8. April 2022).
  3. A. Victor, A. Elsässer, G. Hommel, M. Blettner: Judging a Plethora of p-Values – How to Contend With the Problem of Multiple Testing – Part 10 of a Series on Evaluation of Scientific Publications. In: Deutsches Ärzteblatt International. Band 107, Nr. 4, 2009, S. 50–56, doi:10.3238/arztebl.2010.0050.
  4. S. Holm: A simple sequentially rejective multiple test procedure. In: Scandinavian Journal of Statistics. Vol. 6, 1979, S. 65–70.