Ausreißertest nach Walsh

Der Ausreißertest nach Walsh ist ein statistischer Test, mit dem Ausreißer in einer Stichprobe erkannt werden können. Er setzt keine bestimmte Häufigkeitsverteilung der Daten voraus und zählt deshalb zu den nichtparametrischen Verfahren. Entwickelt wurde der Test vom amerikanischen Statistiker John E. Walsh, der ihn 1950 erstmals beschrieb.

Der Ausreißertest nach Walsh ist nicht von dem Problem der meisten anderen Ausreißertests betroffen, die auf der Annahme einer Normalverteilung basieren und bei Stichproben, deren Werte beispielsweise lognormalverteilt sind, zu falsch-positiven Ergebnissen führen können. Voraussetzung für die Testanwendung ist allerdings ein Stichprobenumfang von mehr als 60 Werten für ein Signifikanzniveau von α=0,10 und von mehr als 220 Werten für α=0,05.

Darüber hinaus muss zur Durchführung des Tests die Zahl der angenommenen Ausreißer a priori angegeben werden. Die Nullhypothese des Tests ist die Annahme, dass alle Beobachtungen zur Stichprobe gehören und die Stichprobe somit keine Ausreißer enthält. Die Alternativhypothese ist demgegenüber, dass die der zur Testdurchführung angegebenen Zahl der angenommenen Ausreißer entsprechenden höchsten beziehungsweise niedrigsten Einzelwerte tatsächlich Ausreißer sind.

Testdurchführung

Nullhypothese	Alternativhypothese
$H_{0}^{\mathrm {min} }:$ Die $r$ kleinsten Werte gehören zu einer Verteilung.	$H_{1}^{\mathrm {min} }:$ Die $r$ kleinsten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.
$H_{0}^{\mathrm {max} }:$ Die $r$ größten Werte gehören zu einer Verteilung.	$H_{1}^{\mathrm {max} }:$ Die $r$ größten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.

Folgende Berechnungsschritte werden durchgeführt:

$c=\lfloor {\sqrt {2n}}\rfloor$ mit $\lfloor x\rfloor$ die größte ganze Zahl kleiner als $x$ (abrunden),
$k=c+r$ ,
$b={\sqrt {1/\alpha }}$ und
$a={\frac {1+b{\sqrt {\frac {c-b^{2}}{c-1}}}}{c-b^{2}-1}}$ .

Gilt nun

$x_{(r)}-(1+a)x_{(r+1)}+ax_{(k)}<0$ dann kann die Nullhypothese $H_{0}^{min}:$ zum Signifikanzniveau $\alpha$ verworfen werden oder
$x_{(n+1-r)}-(1+a)x_{(n-r)}+ax_{(n+1-k)}>0$ dann kann die Nullhypothese $H_{0}^{max}:$ zum Signifikanzniveau $\alpha$ verworfen werden.

Der Wert $x_{(i)}$ gibt dabei die $i$ kleinste Beobachtung der Stichprobe an; siehe auch Rang (Statistik).

Da der Wert $a>0$ sein muss, muss gelten: $\alpha >{\frac {1}{\lfloor {\sqrt {2n}}\rfloor -1}}$ . Daher sind für ein Signifikanzniveau von $\alpha =10\,\%$ mindestens 61 Beobachtungen erforderlich, für ein Signifikanzniveau von $\alpha =5\,\%$ mindestens 221 Beobachtungen.

Beispiel

Wenn $n=75$ , $\alpha =10\,\%$ und $r=2$ dann ist $c=12$ , $k=14$ , $b=3{,}1623$ , $a=2{,}348$ . D.h. wenn

$x_{(2)}-3{,}348x_{(3)}+2{,}348x_{(14)}<0$ dann wird $H_{0}^{min}:$ verworfen bzw.
$x_{(74)}-3{,}348x_{(73)}+2{,}348x_{(62)}>0$ dann wird $H_{0}^{max}:$ verworfen.

Mathematischer Hintergrund

Walsh betrachtet eine lineare Kombination von Ordnungsstatistiken $X_{(i)}$ der Form

L=X_{(r)}-(1+a)X_{(j)}+aX_{(k)}

mit

1<j<k

und

a>0

.

Wenn die Nullhypothese $H_{0}^{min}$ gilt, dann folgt $j=r+1$ , wenn die $Var(L)(1+o(1))$ minimal sein soll. Gilt des Weiteren $E(L)=K{\sqrt {Var(L)(1+o(1))}}$ , so folgt mittels der Tschebyscheff-Ungleichung:

P(X_{(r)}-(1+a)X_{(r+1)}+aX_{(k)}<0)=P(L<0)=P\left({\frac {L-E(L)}{\sqrt {Var(L)}}}<-K+o(1)\right)\leq {\frac {1}{K^{2}}}+o(1)

.

Einige, nicht sehr restriktive, Voraussetzungen müssen jedoch erfüllt sein:

Wenn $Q(p)$ die inverse Verteilungsfunktion der Grundgesamtheit bzw. $Q'(p)$ deren erste Ableitung ist, dann muss für $r<s$ (allenfalls mit $o({\sqrt {n}})$ ) unter $H_{0}$ gelten
- $E(X_{(r)})=Q\left({\frac {s}{n+1}}\right)-{\frac {s-r}{n-1}}Q'\left({\frac {s}{n+1}}\right)(1+o(1))$ ,
- $Var(X_{(r)})={\frac {r}{(n+1)^{2}}}\left(Q'\left({\frac {s}{n+1}}\right)\right)^{2}(1+o(1))$ ,
- $Var(X_{(s)})={\frac {s}{(n+1)^{2}}}\left(Q'\left({\frac {s}{n+1}}\right)\right)^{2}(1+o(1))$ ,
- $Cov(X_{(r)},X_{(s)})={\frac {r}{(n+1)^{2}}}\left(Q'\left({\frac {s}{n+1}}\right)\right)^{2}(1+o(1))$ sowie
- analogen Bedingungen für $n+1-r$ und $n+1-s$ .
Für $\lfloor {\sqrt {2n}}\rfloor >K^{2}+1$ können die $o(1)$ Terme vernachlässigt werden und es ergibt sich dann $k-r\leq {\sqrt {2n}}$ .

Literatur

John Edward Walsh: Some Nonparametric Tests of whether the Largest Observations of a Set are too Large or too Small. In: Annals of Mathematical Statistics. Band 21, Nr. 4, 1950, ISSN 0003-4851, S. 583–592, doi:10.1214/aoms/1177729753.
John Edward Walsh: Correction to "Some Nonparametric Tests of Whether the Largest Observations of a set are too Large or too Small". In: Annals of Mathematical Statistics. Band 24, Nr. 1, 1953, S. 134–135, doi:10.1214/aoms/1177729095.
John Edward Walsh: Large Sample Nonparametric Rejection of Outlying Observations. In: Annals of the Institute of Statistical Mathematics. 10/1958. The Institute of Statistical Mathematics, S. 223–232, ISSN 0020-3157
Large Sample Outlier Detection. In: Douglas M. Hawkins: Identification of Outliers. Chapman & Hall, London und New York 1980, ISBN 0-41-221900-X, S. 83/84

Weblinks

Grundlagen der Statistik - Ausreissertest nach Walsh Beschreibung der Testdurchführung