Der Ausreißertest nach Walsh ist ein statistischer Test, mit dem Ausreißer in einer Stichprobe erkannt werden können. Er setzt keine bestimmte Häufigkeitsverteilung der Daten voraus und zählt deshalb zu den nichtparametrischen Verfahren. Entwickelt wurde der Test vom amerikanischen Statistiker John E. Walsh, der ihn 1950 erstmals beschrieb.

Der Ausreißertest nach Walsh ist nicht von dem Problem der meisten anderen Ausreißertests betroffen, die auf der Annahme einer Normalverteilung basieren und bei Stichproben, deren Werte beispielsweise lognormalverteilt sind, zu falsch-positiven Ergebnissen führen können. Voraussetzung für die Testanwendung ist allerdings ein Stichprobenumfang von mehr als 60 Werten für ein Signifikanzniveau von α=0,10 und von mehr als 220 Werten für α=0,05.

Darüber hinaus muss zur Durchführung des Tests die Zahl der angenommenen Ausreißer a priori angegeben werden. Die Nullhypothese des Tests ist die Annahme, dass alle Beobachtungen zur Stichprobe gehören und die Stichprobe somit keine Ausreißer enthält. Die Alternativhypothese ist demgegenüber, dass die der zur Testdurchführung angegebenen Zahl der angenommenen Ausreißer entsprechenden höchsten beziehungsweise niedrigsten Einzelwerte tatsächlich Ausreißer sind.

Testdurchführung

Bearbeiten
Nullhypothese Alternativhypothese
  Die   kleinsten Werte gehören zu einer Verteilung.   Die   kleinsten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.
  Die   größten Werte gehören zu einer Verteilung.   Die   größten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.

Folgende Berechnungsschritte werden durchgeführt:

  •   mit   die größte ganze Zahl kleiner als   (abrunden),
  •  ,
  •   und
  •  .

Gilt nun

  •   dann kann die Nullhypothese   zum Signifikanzniveau   verworfen werden oder
  •   dann kann die Nullhypothese   zum Signifikanzniveau   verworfen werden.

Der Wert   gibt dabei die   kleinste Beobachtung der Stichprobe an; siehe auch Rang (Statistik).

Da der Wert   sein muss, muss gelten:  . Daher sind für ein Signifikanzniveau von   mindestens 61 Beobachtungen erforderlich, für ein Signifikanzniveau von   mindestens 221 Beobachtungen.

Beispiel

Bearbeiten

Wenn  ,   und   dann ist  ,  ,  ,  . D.h. wenn

  •   dann wird   verworfen bzw.
  •   dann wird   verworfen.

Mathematischer Hintergrund

Bearbeiten

Walsh betrachtet eine lineare Kombination von Ordnungsstatistiken   der Form

  mit   und  .

Wenn die Nullhypothese   gilt, dann folgt  , wenn die   minimal sein soll. Gilt des Weiteren  , so folgt mittels der Tschebyscheff-Ungleichung:

 .

Einige, nicht sehr restriktive, Voraussetzungen müssen jedoch erfüllt sein:

  1. Wenn   die inverse Verteilungsfunktion der Grundgesamtheit bzw.   deren erste Ableitung ist, dann muss für   (allenfalls mit  ) unter   gelten
    •  ,
    •  ,
    •  ,
    •   sowie
    • analogen Bedingungen für   und  .
  2. Für   können die   Terme vernachlässigt werden und es ergibt sich dann  .

Literatur

Bearbeiten
  • John Edward Walsh: Some Nonparametric Tests of whether the Largest Observations of a Set are too Large or too Small. In: Annals of Mathematical Statistics. Band 21, Nr. 4, 1950, ISSN 0003-4851, S. 583–592, doi:10.1214/aoms/1177729753.
  • John Edward Walsh: Correction to "Some Nonparametric Tests of Whether the Largest Observations of a set are too Large or too Small". In: Annals of Mathematical Statistics. Band 24, Nr. 1, 1953, S. 134–135, doi:10.1214/aoms/1177729095.
  • John Edward Walsh: Large Sample Nonparametric Rejection of Outlying Observations. In: Annals of the Institute of Statistical Mathematics. 10/1958. The Institute of Statistical Mathematics, S. 223–232, ISSN 0020-3157
  • Large Sample Outlier Detection. In: Douglas M. Hawkins: Identification of Outliers. Chapman & Hall, London und New York 1980, ISBN 0-41-221900-X, S. 83/84
Bearbeiten