Statistischer Test

Ein statistischer Test dient in der Testtheorie, einem Teilgebiet der mathematischen Statistik, dazu, anhand vorliegender Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese zu treffen. Aus diesem Grund spricht man auch von einem Hypothesentest. Formal ist ein Test also eine mathematische Funktion, die einem Beobachtungsergebnis eine Entscheidung zuordnet. Da die vorhandenen Daten Realisierungen von Zufallsvariablen sind, lässt sich in den meisten Fällen nicht mit Sicherheit sagen, ob eine Hypothese wahr ist oder nicht. Man versucht daher, die Wahrscheinlichkeiten für Fehlentscheidungen zu kontrollieren. Meistens wird ein Hypothesentest in der Form eines Signifikanztests durchgeführt, der ein Test zu einem vorgegebenen Signifikanzniveau ist.

Interpretation eines statistischen Tests

Ein statistisches Testverfahren lässt sich im Prinzip mit einem Gerichtsverfahren vergleichen. Das Verfahren hat (meistens) den Zweck, festzustellen, ob es ausreichend Beweise gibt, den Angeklagten zu verurteilen. Es wird dabei immer von der Unschuld eines Verdächtigen ausgegangen, und solange große Zweifel an den Belegen für ein tatsächliches Vergehen bestehen, wird ein Angeklagter freigesprochen. Nur wenn die Indizien für die Schuld eines Angeklagten deutlich überwiegen, kommt es zu einer Verurteilung.

Es gibt demnach zu Beginn des Verfahrens die beiden Hypothesen $H_{0}$ „der Verdächtige ist unschuldig“ und $H_{1}$ „der Verdächtige ist schuldig“. Erstere nennt man Nullhypothese, von ihr wird vorläufig ausgegangen. Die zweite nennt man Gegenhypothese (oder Alternativhypothese). Sie ist diejenige, die zu „beweisen“ versucht wird.

Um einen Unschuldigen nicht zu leicht zu verurteilen, wird die Hypothese der Unschuld erst dann verworfen, wenn ein Irrtum sehr unwahrscheinlich ist. Man spricht auch davon, die Wahrscheinlichkeit für einen Fehler 1. Art (also das Verurteilen eines Unschuldigen) zu kontrollieren. Naturgemäß wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit für einen Fehler 2. Art (also das Freisprechen eines Schuldigen) „groß“. Aufgrund der stochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsätzlich nicht vermeiden. Man versucht in der Statistik allerdings optimale Tests zu konstruieren, die die Fehlerwahrscheinlichkeiten minimieren.

Beispiel

Test auf hellseherische Fähigkeiten

Es soll versucht werden, einen Test auf hellseherische Fähigkeiten zu entwickeln.

Einer Testperson wird 25-mal die Rückseite einer rein zufällig gewählten Spielkarte gezeigt und sie wird jeweils danach gefragt, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Die Anzahl der Treffer nennen wir $X$ .

Da die hellseherischen Fähigkeiten der Person getestet werden sollen, gehen wir vorläufig von der Nullhypothese aus, die Testperson sei nicht hellsehend. Die Alternativhypothese lautet entsprechend: Die Testperson ist hellseherisch begabt.

Was bedeutet das für unseren Test? Wenn die Nullhypothese richtig ist, wird die Testperson nur versuchen können, die jeweilige Farbe zu erraten. Für jede Karte gibt es bei vier Farben eine Wahrscheinlichkeit von ${\tfrac {1}{4}}$ , die richtige Farbe zu erraten. Wenn die Alternativhypothese richtig ist, hat die Person für jede Karte eine größere Wahrscheinlichkeit als 1/4. Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersage $p$ .

Die Hypothesen lauten dann:^[1]

H_{0}\colon \;p={\frac {1}{4}}

und

H_{1}\colon \;p>{\frac {1}{4}}

.

Wenn die Testperson alle 25 Karten richtig benennt, werden wir sie als Hellseher betrachten und die Alternativhypothese annehmen. Und mit 24 oder 23 Treffern auch. Andererseits gibt es bei nur 5 oder 6 Treffern keinen Grund dazu. Aber was wäre mit 12 Treffern? Was wäre mit 17 Treffern? Wo liegt die kritische Anzahl an Treffern $c$ , von der an wir nicht mehr glauben können, es seien reine Zufallstreffer?

Das kommt darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mit $c=25$ ist die Wahrscheinlichkeit einer solchen Fehlentscheidung, also die Wahrscheinlichkeit, dass eine nicht hellseherische Testperson nur rein zufällig 25-mal richtig geraten hat, extrem klein:

P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq 25\mid p={\tfrac {1}{4}}\right)=\left({\tfrac {1}{4}}\right)^{25}\approx 10^{-15}

,

Hier stellt A den Ablehnbereich dar. Wir nehmen $H_{0}$ an, wenn für die Teststatistik des Test gilt, dass $T\notin A$ und lehnen $H_{0}$ ab, wenn $T\in A$ .

Weniger kritisch, mit $c=10$ , erhalten wir mit der Binomialverteilung, $B(\cdot \mid p,25)$ , eine wesentlich größere Wahrscheinlichkeit:

P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq 10\mid p={\tfrac {1}{4}}\right)=\sum _{i=10}^{25}B\left(i\mid {\tfrac {1}{4}},25\right)=\sum _{i=10}^{25}{\binom {25}{i}}\left({\tfrac {1}{4}}\right)^{i}\left(1-{\tfrac {1}{4}}\right)^{25-i}\approx 0{,}07

Vor dem Test wird eine Wahrscheinlichkeit für den Fehler erster Art festgesetzt, das Signifikanzniveau $\alpha$ . Typisch sind Werte zwischen 1 % und 5 %. Abhängig davon lässt sich (hier für den Fall $\alpha =1\%$ ) dann $c$ so bestimmen, dass

P(T\in A\mid H_{0}{\text{ ist richtig}})=P\left(X\geq c\mid p={\tfrac {1}{4}}\right)\leq 0{,}01

gilt. Unter allen Zahlen $c$ , die diese Eigenschaft erfüllen, wird man zuletzt $c$ als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt: $c=13$ . Ein Test dieser Art heißt Binomialtest, da die Anzahl der Treffer unter der Nullhypothese binomialverteilt ist.

Mögliche Fehlentscheidungen

Auch wenn es wünschenswert ist, dass der Test aufgrund der vorliegenden Daten „richtig“ entscheidet, besteht die Möglichkeit von Fehlentscheidungen. Im mathematischen Modell bedeutet dies, dass man bei richtiger Nullhypothese und Entscheidung für die Alternative einen Fehler 1. Art (α-Fehler) begangen hat. Falls man die Nullhypothese bestätigt sieht, obwohl sie nicht stimmt, begeht man einen Fehler 2. Art (β-Fehler).

In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein asymmetrisches: Man legt also ein Signifikanzniveau α fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers erster Art liefert. Tests mit dieser Eigenschaft heißen Test zum Niveau $\alpha$ . Im Anschluss daran versucht man, einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten, dass man unter allen Tests zum Niveau α einen sucht, der die geringste Wahrscheinlichkeit für einen Fehler 2. Art aufweist.

Die formale Vorgehensweise

Generell geht man bei der Anwendung eines Tests in folgenden Schritten vor:

Formulierung einer Nullhypothese $H_{0}$ und ihrer Alternativhypothese $H_{1}$
Wahl des geeigneten Tests (Testgröße oder Teststatistik $T$ )
Bestimmung des kritischen Bereiches $K$ zum Signifikanzniveau $\alpha$ , das vor Realisierung der Stichprobe feststehen muss. Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet.
Berechnung des Werts der Beobachtung $t_{\text{obs}}$ der Testgröße $T$ aus der Stichprobe (je nach Testverfahren etwa den $t$ -Wert oder $U$ oder $H$ oder $\chi ^{2}$ …).
Treffen der Testentscheidung:
- Liegt $t_{\text{obs}}$ nicht in $K$ , so wird $H_{0}$ beibehalten.
- Liegt $t_{\text{obs}}$ in $K$ , so lehnt man $H_{0}$ zugunsten von $H_{1}$ ab.

Formale Definition eines statistischen Tests

Sei $X$ eine Zufallsvariable, die von einem parametrisierten Wahrscheinlichkeitsraum $(\Omega ,{\mathcal {A}},\mathbb {P} _{\theta })$ in einen Messraum $({\mathcal {X}},{\mathcal {F}})$ abbildet. Sei zusätzlich ${\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}$ die parametrisierte Verteilungsannahme, also eine Familie von Wahrscheinlichkeitsmaßen auf $({\mathcal {X}},{\mathcal {F}})$ , wobei $\Theta \to {\mathcal {P}};\theta \mapsto P_{\theta }$ eine Bijektion ist.^[2] Dabei ist $P_{\theta }=\mathbb {P} _{\theta }\circ X^{-1}$ die Verteilung von $X$ . Hierbei sei $\Theta$ der Parameterraum, der in der Praxis meist eine Teilmenge des $\mathbb {R} ^{d}$ mit $d\in \mathbb {N}$ ist. Zwei disjunkte^[3] Teilmengen $\Theta _{0}$ und $\Theta _{1}$ von $\Theta$ definieren das Testproblem:

$H_{0}:\theta \in \Theta _{0}$
$H_{1}:\theta \in \Theta _{1}$ ,

wobei $H_{0}$ die Nullhypothese und $H_{1}$ die Gegenhypothese (oder auch Alternativhypothese) bezeichnet. Dabei bilden häufig, aber nicht notwendig, die beiden Mengen $\Theta _{0}$ und $\Theta _{1}$ eine Zerlegung von $\Theta$ .

Nichtrandomisierte Tests

Entscheidungsregel, Fehler 1. und 2. Art

Eine messbare Funktion $\varphi \colon {\mathcal {X}}\rightarrow \{0,1\}$ heißt (nichtrandomisierter)Test.^[4] Die Funktion $\varphi$ heißt auch Testfunktion und hat folgende inhaltliche Interpretation als Entscheidungsregel:

$\varphi (x)=1\iff$ $H_{0}$ wird abgelehnt (oder verworfen)
$\varphi (x)=0\iff$ $H_{0}$ wird nicht abgelehnt (oder beibehalten)

Das Testergebnis ' $H_{0}$ wird abgelehnt' wird auch verbal umschrieben als ' $H_{0}$ ist mit der Beobachtung nicht verträglich', ' $H_{1}$ ist signifikant' oder ' $H_{1}$ wird durch die Beobachtung statistisch nachgewiesen'.^[5]

Es sind zwei Arten von Fehlentscheidungen möglich: Der Fehler 1. Art wird begangen, wenn $H_{0}$ fälschlich abgelehnt wird, der Fehler 2. Art wird begangen, wenn $H_{0}$ nicht abgelehnt wird, obwohl $H_{0}$ falsch ist.

Ablehnbereich

Die Menge $K_{\varphi }=\{x\in {\mathcal {X}}\mid \varphi (x)=1\}$ derjenigen Beobachtungsergebnisse $x$ , die zu einer Ablehnung von $H_{0}$ führen, heißt kritischer Bereich^[5] (auch Ablehnungsbereich^[6] oder Ablehnbereich^[5]) des Tests. Es gilt die Äquivalenz $x\in K_{\varphi }\iff \varphi (x)=1$ für die Aussagen und die Gleichheit $\{X\in K_{\varphi }\}=\{\varphi (X)=1\}$ der Ereignisse. Die Komplementmenge ${\mathcal {X}}\setminus K_{\varphi }$ heißt Nichtablehnungsbereich oder Annahmebereich.

Gütefunktion, Fehlerwahrscheinlichkeiten 1. und 2. Art

Die Funktion $G_{\varphi }(\theta )\colon \Theta \to [0,1]$ mit

G_{\varphi }(\theta )=\mathbb {P} _{\theta }(X\in K_{\varphi })=\mathbb {P} _{\theta }(\varphi (X)=1)=P_{\theta }(K_{\varphi })

ordnet jedem Parameterwert $\theta$ die Wahrscheinlichkeit $P_{\theta }(K_{\varphi })$ zu, mit der $H_{0}$ abgelehnt wird, und heißt Gütefunktion des Tests.^[7]

Die Gütefunktion eines Tests enthält alle Informationen darüber, mit welchen Wahrscheinlichkeiten bei der Testentscheidung die Fehler 1. oder 2. Art begangen werden. Die Wahrscheinlichkeiten $G_{\varphi }(\theta )$ für $\theta \in \Theta _{0}$ sind die Fehlerwahrscheinlichkeiten 1. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 1. Art begegangen wird. Die Wahrscheinlichkeiten $1-G_{\varphi }(\theta )$ für $\theta \in \Theta _{1}$ sind die Fehlerwahrscheinlichkeiten 2. Art, also die Wahrscheinlichkeiten, dass bei der Testenscheidung ein Fehler 2. Art begegangen wird.

Signifikanzniveau, Niveau-α-Bedingung, Niveau-α-Test

Sei nun ein Signifikanz-Niveau $\alpha \in (0,1)$ vorgegen, das auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit heißt. Dann heißt ein Test $\varphi$ ein Signifikanz-Test zum Niveau $\alpha$ ^[8] für das Testproblem $H_{0}$ gegen $H_{1}$ (auch Niveau- $\alpha$ -Test), wenn

\mathbb {P} _{\theta }(X\in K_{\varphi })\leq \alpha \quad {\text{für alle }}\theta \in \Theta _{0}

gilt. Diese Bedingung heißt Niveau- $\alpha$ -Bedingung^[8] und kann auch in der Form

\sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })\leq \alpha

geschrieben werden. Durch die Niveau- $\alpha$ -Bedingung werden die Fehlerwahrscheinlichkeiten 1. Art durch $\alpha$ nach oben beschränkt.

Umfang eines Tests

Die linke Seite der Ungleichung in der Niveau- $\alpha$ -Bedingung heißt Umfang des Tests^[9] oder tatsächliches Niveau des Testes^[10].

Umfang-α-Test

Ein Niveau- $\alpha$ -Test heißt Test mit Umfang $\alpha$ (oder kurz Umfang- $\alpha$ -Test), wenn

\sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })=\alpha

gilt.^[11] Man sagt dann auch: der Test schöpft das vorgegebene Signifikanzniveau aus. Wenn der Umfang des Tests kleiner als das vorgegebene Signifikanzniveau ist, heißt der Test konservativ.^[12]

In der Regel sucht man einen Test $\varphi$ , der bei eingehaltener Niveau- $\alpha$ -Bedingung die Fehlerwahrscheinlichkeiten 2. Art

\mathbb {P} _{\theta }(X\notin K_{\varphi })=1-\mathbb {P} _{\theta }(X\in K_{\varphi })\quad {\text{für }}\theta \in \Theta _{1}

minimiert.^[8]

Unverfälschtheit

Als Minimalanforderung an einen Test gilt die Unverfälschheit des Tests^[13], die besagt, dass die Ablehnwahrscheinlichkeiten $\mathbb {P} _{\theta }(X\in K_{\varphi })$ , wenn $H_{0}$ falsch ist ('unter $H_{1}$ '), mindestens so groß sein müssen, wie diejenigen, wenn $H_{0}$ richtig ist ('unter $H_{0}$ '), formal

\sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(X\in K_{\varphi })\leq \inf _{\theta \in \Theta _{1}}\mathbb {P} _{\theta }(X\in K_{\varphi })

.

Teststatistik

Meistens ist $X$ eine $n$ -dimensionale Zufallsvariable mit Werten in ${\mathcal {X}}\subseteq \mathbb {R} ^{n}$ , wobei $n$ den Stichprobenumfang bezeichnet. Die formale Definition und die praktische Durchführung eines Tests basiert häufig auf einer eindimensionalen reellwertigen Teststatistik (oder Prüfgröße) $T=T(X)$ für die ein Ablehnbereich als Teilmenge von $\mathbb {R}$ angegeben wird.

Randomisierte Tests

Die Definition eines randomisierten Tests verläuft ähnlich wie beim nichtrandomisierten Test. Jedoch ist ein randomisierter Test eine messbare Funktion $\varphi \colon {\mathcal {X}}\rightarrow [0,1]$ ,

\varphi (x)={\begin{cases}1&{\text{für }}x\in K_{1},\\\gamma (x)&{\text{für }}x\in K_{01}\\0&{\text{für }}x\in K_{0}\end{cases}}

der folgende Interpretation als Entscheidungsregel zugrunde liegt: die Nullhypothese $H_{0}$ wird abgelehnt, falls $x\in K_{1}$ ; $H_{0}$ wird nicht abgelehnt, falls $x\in K_{0}$ ; $H_{0}$ wird mit der Wahrscheinlichkeit $\gamma (x)$ abgelehnt, falls $x\in K_{01}$ .^[4] Der Stichprobenraum ${\mathcal {X}}$ wird durch eine randomisierten Test in drei disjunkte Teilbereiche zerlegt, den strikten Ablehnungsbereich

K_{1}=\{x\in {\mathcal {X}}\mid \varphi (x)=1\}\;,

den strikten Annahmebereich

K_{0}=\{x\in {\mathcal {X}}\mid \varphi (x)=0\}

und den Randomisierungsbereich

K_{01}=\{x\in {\mathcal {X}}\mid 0<\varphi (x)<1\}\;.

Wenn eine Beobachtung im Randomisierungsbereich liegt, wird $H_{0}$ mit der Wahrscheinlichkeit $\gamma (x)$ abgelehnt und mit der Wahrscheinlichkeit $1-\gamma (x)$ nicht abgelehnt, wozu ein weiteres Zufallsexperiment erforderlich ist.^[4]

Randomisierte Tests spielen für die Konstruktion von Tests eine Rolle, bei denen das vorgegebene Signifikanzniveau $\alpha$ ausgeschöpft, also ein Umfang- $\alpha$ -Test konstruiert werden soll. Die Existenz eines nichtrandomisierten Umfang- $\alpha$ -Test ist im Allgemeinen nicht gewährleistet, z. B. wenn die Teststatistik eine diskrete Verteilung hat. Häufig genügt eine Beschränkung auf Tests mit konstanter Randomisierung^[14], d. h. $\gamma (x)={\bar {\gamma }}$ für alle $x\in K_{01}$ mit einer Konstanten ${\bar {\gamma }}\in (0,1)$ , um einen Umfang- $\alpha$ -Test zu konstruieren.^[15] Beispielsweise ist ein Binomialtest wegen der Diskretheit der Teststatistik in der Regel konservativ, schöpft also das vorgegebene Signifikanzniveau nicht aus, kann aber in einer randomisierten Variante zu einem Umfang- $\alpha$ -Test modifiziert werden.^[16]^[17]

In der Anwendung von Tests spielen randomisierte Tests eine unbedeutende Rolle. Sie sind nur dann anwendbar, wenn auf Anwenderseite die Bereitschaft besteht, die letztendliche Entscheidung durch einen Zufallsmechanismus, z. B. durch einen Würfelwurf, Benutzung einer Tabelle von Zufallszahlen oder die Verwendung eines Zufallsgenerators, fällen zu lassen.

Asymptotisches Verhalten des Tests

In den meisten Fällen ist die exakte Wahrscheinlichkeitsverteilung der Teststatistik unter der Nullhypothese nicht bekannt. Man steht also vor dem Problem, dass kein kritischer Bereich zum vorgegebenen Niveau festgelegt werden kann. In diesen Fällen erweitert man die Klasse der zulässigen Tests auf solche, die asymptotisch das richtige Niveau besitzen. Formal bedeutet dies, dass man den Bereich $K$ so wählt, dass für alle $\theta \in \Theta _{0}$ die Bedingung

\limsup _{n\to \infty }\mathbb {P} _{\theta }(T(X)\in K)\leq \alpha

erfüllt ist. In der Regel erhält man solche asymptotischen Tests via Normalapproximation; man versucht also, die Teststatistik so zu transformieren, dass sie gegen eine Normalverteilung konvergiert.

Einfache Beispiele hierfür sind der einfache und doppelte t-Test für Erwartungswerte. Hier folgt die asymptotische Verteilung direkt aus dem zentralen Grenzwertsatz in der Anwendung auf das arithmetische Mittel.

Daneben gibt es aber eine Reihe weiterer statistischer Methoden, die die Herleitung der asymptotischen Normalverteilung auch für kompliziertere Funktionale erlauben. Hierunter fällt die Delta-Methode^[18] für nichtlineare, differenzierbare Transformationen asymptotisch normalverteilter Zufallsvariablen:

Sei $c\colon R^{p}\rightarrow R^{q}$ eine differenzierbare Funktion und sei ein Schätzer ${\hat {\beta }}\in R^{p}$ ${\sqrt {n}}$ -normalverteilt mit asymptotischer Kovarianzmatrix $V$ , dann hat $n^{0,5}({\hat {\beta }}-\beta )$ folgende Verteilung: ${\mathcal {N}}(0,(\partial c/\partial \beta )'V(\partial c/\partial \beta ))$ .

Ferner hat die nichtparametrische Delta-Methode (auch: Einflussfunktionsmethode) einige Fortschritte gebracht:

Sei $T(F)$ ein Funktional, das von der Verteilung $F$ abhängt. Sei $L(x)\equiv \lim _{\delta \rightarrow 0}(T((1-\delta )F+\delta G)-T(F))/\delta )$ die Gâteaux-Ableitung der Statistik bei $F$ (Einflussfunktion) und sei $T$ Hadamard-differenzierbar bezüglich $\sup _{x}|F(x)-G(x)|$ , dann hat ${\sqrt {n}}(T({\hat {F}})-T(F))$ folgende Verteilung: ${\mathcal {N}}\left(0,\int L(x)^{2}\mathrm {d} F(x)\right)$ .

Die Deltamethode erlaubt Normalverteilungsapproximationen für nichtlineare, differenzierbare Transformationen (asymptotisch) normalverteilter Zufallsvariablen, während die Einflussfunktionsmethode solche Approximationen für viele interessante Charakteristika einer Verteilung zulässt. Darunter fallen u. a. die Momente (also etwa: Varianz, Kurtosis usw.), aber auch Funktionen dieser Momente (etwa: Korrelationskoeffizient).

Eine wichtige weitere Anforderung an einen guten Test ist, dass er bei wachsendem Stichprobenumfang empfindlicher wird. In statistischen Termini bedeutet dies, dass bei Vorliegen einer konsistenten Teststatistik die Wahrscheinlichkeit dafür steigt, dass die Nullhypothese auch tatsächlich zu Gunsten der Alternativhypothese verworfen wird, falls sie nicht stimmt. Speziell wenn der Unterschied zwischen dem tatsächlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist, wird er erst bei einem entsprechend großen Stichprobenumfang entdeckt. Ob diese Abweichungen jedoch von praktischer Bedeutung sind und überhaupt den Aufwand einer großen Stichprobe rechtfertigen, hängt von dem zu untersuchenden Aspekt ab.

Problem der Modellwahl

Die meisten mathematischen Resultate beruhen auf Annahmen, die bezüglich bestimmter Eigenschaften der beobachteten Zufallsvariablen gemacht werden. Je nach Situation werden verschiedene Teststatistiken gewählt, deren (asymptotische) Eigenschaften wesentlich von den Forderungen an die zu Grunde liegende Verteilungsfamilie abhängen. In der Regel müssen diese Modellannahmen zuvor empirisch überprüft werden, um überhaupt angewendet werden zu können. Kritisch ist dabei vor allem, dass die typischen Testverfahren strengen Voraussetzungen unterworfen sind, die in der Praxis selten erfüllt sind.

Typen und Eigenschaften von Tests

Parametrische und nichtparametrische Tests

Parametrische Tests (parametrisches Prüfverfahren)

Bei parametrischen Test wird angenommen, dass den beobachteten Daten eine Wahrscheinlichkeitsverteilung zugrunde liegt, die in einer Klasse von Verteilungen liegt, welche mittels Parametern charakterisiert werden kann.^[19] Beispielsweise wird die Annahme gemacht, dass die Daten normalverteilt sind, also die Verteilung der Daten in der Klasse der Normalverteilungen liegt, welche durch die Parameter Mittelwert und Varianz charakterisiert sind. Nullhypothese und Alternativhypothese lassen sich dann häufig ebenfalls mithilfe von Parametern beschreiben.

Bei parametrischen Tests ist es wichtig, die getroffenen Voraussetzungen zu überprüfen. Die Daten sollten (annähernd) aus der angenommenen Verteilungsklasse stammen. Jedoch sind auch manche parametrischen Testverfahren bei Abweichungen von den Voraussetzungen (gerade bei großen Stichprobenumfang) robust. Beispielsweise ist der T-Test bei großen Stichprobenumfängen noch immer zuverlässig, auch wenn die Daten nicht – wie eigentlich vorausgesetzt – normalverteilt sind.

Sofern die gemachten Verteilungsannahmen nicht stimmen, sind die Ergebnisse des Tests in den meisten Fällen unbrauchbar. Speziell lässt sich die Wahrscheinlichkeit für einen Fehler zweiter Art nicht mehr sinnvoll minimieren. Man spricht dann davon, dass für viele Alternativen die Trennschärfe sinkt.

Nichtparametrische Tests

Bei nichtparametrischen Tests (auch parameterfreie Tests oder Verteilungstests genannt) wird nicht angenommen, dass die Wahrscheinlichkeitsverteilung, die den Beobachtungen zugrunde liegt, aus einer Familie von Verteilungen stammt, die sich durch Parameter charakterisieren lässt.^[19] In der Regel treffen nichtparametrische Tests jedoch ebenfalls Annahmen über die zugrundeliegenden Verteilungen. Oft wird angenommen, dass den Daten eine stetige Verteilung zugrunde liegt, oder dass die Verteilung symmetrisch ist. Die Nullhypothese und Alternativhypothese bei nichtparametrischen Tests kann durchaus mittels Parametern formuliert werden. Beispielsweise liegt dem Wilcoxon-Vorzeichen-Rang-Test die Nullhypothese zugrunde, dass der Median der Verteilung (die als symmetrisch angenommen wird) kleiner, gleich, oder größer einem gegebenen Wert ist. Nichtparametrische Tests kommen also mit anderen Vorannahmen aus, die Menge der für Hypothese und Alternative zugelassenen Verteilungen lässt sich nicht durch einen Parameter beschreiben.

Typische Beispiele:

Tests auf eine bestimmte Verteilungsfunktion wie der Kolmogorow-Smirnow-Test.
Der Wilcoxon-Mann-Whitney-Test vergleicht die Lage zweier unabhängiger Stichproben.
Der Kruskal-Wallis-Test vergleicht die Lage von zwei oder mehr Gruppen unabhängiger Stichproben.
Der Wilcoxon-Vorzeichen-Rang-Test vergleicht die Lage zweier abhängiger Stichproben (bspw. Paarvergleiche), bzw. prüft man, ob der Median größer, kleiner, oder gleich einem vorgegebenen Wert ist.
Der Friedman-Test vergleicht die Lage von drei oder mehr Gruppen abhängiger Stichproben.

Die aufgezählten Tests treffen alle Annahmen über die zugrundeliegende Wahrscheinlichkeitsverteilung der Daten, die erfüllt sein müssen. Beispielsweise geht der Wilcoxon-Vorzeichen-Rang-Test von einer symmetrischen stetigen Verteilung aus. Gerade die Voraussetzung einer stetigen Verteilung ist in der Praxis oft nicht gegeben. Bei einer stetigen Verteilung würden Bindungen mit Wahrscheinlichkeit 0 auftreten. Das ist in der Praxis aufgrund von Rundungsfehlern oft nicht erfüllt. In solchen Fällen greift man auf korrigierte Versionen der jeweiligen Verfahren zurück. Da parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Trennschärfe bieten als nichtparametrische, kommen letztere eher selten zum Einsatz.

Verteilungsfreie und verteilungsgebundene Tests

Bei verteilungsgebundenen oder parametrischen Tests^[20] hängt die Teststatistik $T$ von der Verteilung der Stichprobenvariablen $X_{i}$ , also ihrer Verteilung in der Grundgesamtheit, ab. Oft wird eine Normalverteilung vorausgesetzt.

Bei verteilungsfreien Tests, auch nichtparametrische oder parameterfreie Tests genannt^[20]^[21]^[22], hängt die Teststatistik $T$ nicht von der Verteilung der Stichprobenvariablen $X_{i}$ ab.

Konservativer Test

Bei einem konservativen Test gilt, dass die Wahrscheinlichkeiten für einen Fehler 1. Art (Annahme der Alternativhypothese als Ergebnis der Testentscheidung, obwohl die Nullhypothese wahr ist) kleiner als das vorgegebene Signifikanzniveau $\alpha$ ist. Dadurch wird der Nichtablehnungsbereich der Nullhypothese größer als eigentlich notwendig und eine richtige Nullhypothese wird seltener abgelehnt, als durch das vorgegebene Signifikanzniveau $\alpha$ erlaubt ist. Der Test ist in dem Sinn konservativ, dass er die Nichtablehnung einer richtigen Nullhypothese begünstigt und so an der Nullhypothese festhält. Zugleich erhöht ein konservativer Test tendenziell die Fehlerwahrscheinlichkeiten 2. Art.

Ein Beispiel für einen konservativen Test ist der Binomialtest (Test auf Anteilswert, z. B. $H_{0}\colon \pi \leq \pi _{0}$ vs. $H_{1}\colon \pi >\pi _{0}$ ). Wegen bestimmter Monotonieeigenschaften kann der Test mit Hilfe der zu dem speziellen Parameterwert $\pi _{0}$ gehörenden Wahrscheinlichkeitsverteilung der Teststatistik durchgeführt werden. Aufgrund der Diskretheit der Teststatistik $T$ kann man im Allgemeinen nicht erreichen, dass für den kritischen Wert $c$ gilt: $P_{\pi _{0}}(T>c)=\alpha$ . Daher wählt man $c$ möglichst klein, aber, so dass $P_{\pi _{0}}(T>c)\leq \alpha$ noch erfüllt ist. Dadurch erhält man einen Niveau-α-Test, der aber im Allgemeinen kein Umfang-α-Test ist, der also das vorgegebene Signifikanzniveau nicht ausschöpft. Der Umfang des Tests (die maximale Fehlerwahrscheinlich 1. Art) kann erheblich unter dem vorgegebenen Signifikanzniveau liegen.

Exakter Test

Exakte Tests sind Tests, deren Annahmen in Bezug auf die Verteilung der Teststatistik bei Gültigkeit der Nullhypothese alle exakt sind. Dadurch kann der Fehler 1. Art (Ablehnung der Nullhypothese, obwohl diese gültig ist) exakt kontrolliert werden.

Exakte Tests sind etwa der Fisher-Test, der Permutationstest oder der Binomialtest.

Ein Beispiel ist auch hier der Binomialtest (Test auf Anteilswert, z. B. $H_{0}\colon \pi \leq \pi _{0}$ vs. $H_{1}\colon \pi >\pi _{0}$ ). Aufgrund des zentralen Grenzwertsatzes kann die binomialverteilte Teststatistik $T$ mit der Normalverteilung approximiert werden, z. B. falls $n\cdot \pi _{0}\cdot (1-\pi _{0})\geq 9$ gilt. Unter Umständen ist in diesem Fall zur besseren Approximation die Anwendung einer Stetigkeitskorrektur notwendig.

Ein- und zweiseitige Tests

Im Falle eines eindimensionalen Parameters $\theta$ mit Werten in einem Parameterraum $\Theta \subseteq \mathbb {R}$ spricht man in den beiden Fällen

H_{0}\colon \theta \leq \theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta >\theta _{0}

und

H_{0}\colon \theta \geq \theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta <\theta _{0}

von einer einseitigen Gegenhypothese und im Fall

H_{0}\colon \theta =\theta _{0}\quad {\text{versus}}\quad H_{1}\colon \theta \neq \theta _{0}

von einer zweiseitigen Gegenhypothese. Dabei ist $\theta _{0}$ ein spezifizierter Parameter in $\Theta$ . In den ersten beiden Fällen kann die Nullhypothese auch von der Form $H_{0}\colon \theta =\theta _{0}$ sein. Man spricht in diesem Zusammenhang auch von einseitigen und zweiseitigen Testproblemen oder kürzer von einseitigen und zweiseitigen Tests.

Häufig, aber nicht immer, ist der Ablehnungsbereich für eine Teststatistik $T$ , die von einer Schätzfunktion für den Parameter $\theta$ abgeleitet ist, beim ersten Hypothesenpaar ein Intervall der Form $(a,\infty )$ , beim zweiten Hypothesenpaar ein Intervall der Form $(-\infty ,b)$ und beim dritten Hypothesenpaar von der Form $(-\infty ,c)\cup (d,\infty )$ mit $c<d$ . In diesem Fall spricht man bei der Festlegung des Ablehnungsbereichs auch davon, dass man einseitig oder zweiseitig testet. Ablehnungsbereiche können aber auch bei einseitigen Testproblemen komplizierter sein als Intervalle oder Vereinigungen von zwei Intervallen.

Äquivalenztest

Beim Vergleich der Wirkung (z. B. von zwei Arzneimitteln) ist es manchmal sinnvoll, beim Mittelwertvergleich nicht einen Standardtest mit dem Hypothesenpaar

H_{0}\colon \mu _{1}=\mu _{2}\quad {\text{versus}}\quad H_{1}\colon \mu _{1}\neq \mu _{2}

durchzuführen, sondern einen Toleranzbereich zu verwenden, in dem von Äquivalenz (Gleichwertigkeit) ausgegangen wird. Dazu wird eine positive Konstante $c$ zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

H_{0}\colon |\mu _{1}-\mu _{2}|>c\quad {\text{versus}}\quad H_{1}\colon |\mu _{1}-\mu _{2}|\leq c

getestet. Wenn $H_{0}$ mit einem Signifikanztest zugunsten von $H_{1}$ abgelehnt wird, liegt statistisch gesicherte Äquivalenz vor. Ein solcher Signifikanztest heißt Äquivalenztest.^[23]^[24]

Nichtunterlegenheitstest

Beim Vergleich der Wirkung eines neuen Wirkstoffs (z. B. eines neuen Arzneimittels) mit einem etablierten Referenzstoff wird manchmal getestet, ob der neue Wirkstoff vergleichbar oder nur unbedeutend schlechter ist. Man spricht dann von der Nichtunterlegenheit des neuen Wirkstoffs. Dazu wird eine positive Konstante $c$ zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar

H_{0}\colon \mu _{1}<\mu _{0}-c\quad {\text{versus}}\quad H_{1}\colon \mu _{1}\geq \mu _{0}-c

getestet. Dabei ist $\mu _{0}$ die mittlere Wirkung des Referenzstoffes und $\mu _{1}$ die mittlere Wirkung des neuen Wirkstoffes. Wenn die Nullhypothese mit einem Signifikanztest zugunsten der Gegenhypothese abgelehnt wird, gilt der neue Wirkstoff statistisch gesichert als nicht unterlegen. Ein solcher Signifikanztest heißt Nichtunterlegenheitstest.^[23]^[24]

Will man anstelle der Nichtunterlegenheit die signifikante Überlegenheit des Referenzstoffes nachweisen, so ist

H_{0}\colon \mu _{1}\leq \mu _{0}\quad {\text{versus}}\quad H_{1}\colon \mu _{1}>\mu _{0}

zu testen. Will man eine signifikante Überlegenheit des Referenzstoffes nachweisen, die auch relevant ist, wobei die Relevanz des Unterschiedes durch eine positive Konstante $c$ ausgedrückt ist, so ist

H_{0}\colon \mu _{1}\leq \mu _{0}+c\quad {\text{versus}}\quad H_{1}\colon \mu _{1}>\mu _{0}+c

zu testen.

Signifikanztest

Allgemein heißt ein statistischer Test, bei dem eine Nullhypothese $H_{0}$ gegen die Gegenhypothese $H_{1}$ getestet wird, Hypothesentest.

Ein statistischer Test einer Nullhypothese $H_{0}$ gegen die Gegenhypothese $H_{1}$ heißt Signifikanztest zum Niveau $\alpha$ , wenn es sich um einen Niveau- $\alpha$ -Test im Sinn der Neyman-Peason’schen Testtheorie handelt. Dabei „ [...] wird für die Wahrscheinlichkeiten des Fehlers erster Art eine obere Schranke α (α nahe bei Null) vorgegeben, so daß auf diese Art der Fehler erster Art unter Kontrolle steht. Für den Fehler zweiter Art ist dies nicht der Fall, seine Wahrscheinlichkeiten können (auch bei einem optimalen Niveau-α-Test) sehr groß sein [...]“^[25] Die unsymmetrische Behandlung der beiden Fehler führt zu den beiden möglichen – unsymmetrisch interpretierten – Testentscheidungen

A_{0}:

H_{0}

wird nicht abgelehnt (keine statistische Signifikanz).

A_{1}:

H_{0}

wird abgelehnt,

H_{1}

ist signifikant.

Der Fehler 1. Art wird kontrolliert, in dem eine Oberschranke für die Fehlerwahrscheinlichkeiten 1. Art vorgegeben wird, das sogenannte Signifikanzniveau $\alpha \in (0,1)$ . Typische Werte für ein vorgegebenes Signifikanzniveau sind 10 %, 5 %, 1 % und 0,1 %. In einigen Anwendungsbereichen hat sich die Verwendung von $\alpha =5\%$ verfestigt.

Ein Signifikanztest ist ungeeignet, eine Nullhypothese im Fall der Nichtablehnung mit statistischer Signifikanz zu bestätigen oder zu sichern. Bei Verwendung eines statistischen Signifikanztests ist daher eine zu stützende Forschungshypothese regelmäßig als Gegenhypothese zu formulieren. Kann die Nullhypothese abgelehnt werden, so gilt die Forschungshypothese als signifikant.

Häufig wird von Anwendern die Nichtablehnung der Nullhypothese eines Signifikanztestes falsch interpretiert, nämlich als statistische Bestätigung der Nullhypothese. Diese Interpretation ist aber nur möglich, wenn zusätzlich Aussagen über die Fehlerwahrscheinlichkeit 2. Art gemacht werden können, was aber in der Regel nicht möglich ist, wenn die Gegenhypothese sehr allgemein ist. Typische Fehlanwendungen dieser Art sind der Einsatz eines Kolmogorow-Smirnow-Tests zur Bestätigung einer bestimmten Verteilungsannahme, der Einsatz des Lilliefors-Tests zur Bestätigung der Normalverteilungsannahme und der Einsatz des Levene-Tests zur Bestätigung der Varianzhomogenität. Aus methodischen Gründen können der Kolmogorow-Smirnow-Test, der Lilliefors-Test bzw. der Levene-Test verwendet werden, um mit statistischer Signifikanz eine bestimmte Verteilungsannahme, die Normalverteilungsannahme bzw. die Homogenitätsannahme der Varianzen abzulehnen.

Ein Hypothesentest, der kein Signifikanztest ist, und eine Alternative behandelt, die aus zwei gleichberechtigten Hypothesen besteht, ist der Alternativtest.

Alternativtest

Typisch für einen Signifikanztest im Sinn der Neyman-Pearson’schen Testtheorie ist die unsymmetrische Behandlung der Null- und Gegenhypothese durch die vorrangige Kontrolle des Fehlers 1. Art. In bestimmten Fällen ist stattdessen eine symmetrische Behandlung von zwei Hypothesen $H_{0}$ und $H_{1}$ erwünscht, die eine Alternative bilden. „Ein derartiger Test heißt Alternativtest. Er besitzt die beiden möglichen Testergebnisse (Testaussagen, Testentscheidungen)

A_{0}:

H_{1}

wird abgelehnt,

H_{0}

ist signifikant.

A_{1}:

H_{0}

wird abgelehnt,

H_{1}

ist signifikant.“^[26]

Bei Alternativtests erfolgt eine gleichzeitige Kontrolle der Fehler 1. Art und 2. Art.^[27]^[28]

Durchschnitts-Vereinigungs-Test

Die Durchschnitts-Vereinigungs-Methode^[29] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Vereinigung

H_{0}\colon \theta \in \bigcup _{\gamma \in \Gamma }\Theta _{\gamma }

mit einer endlichen oder unendlichen Indexmenge $\Gamma$ dargestellt werden kann. Wenn Tests für die einzelnen Hypothesen $H_{0,\gamma }:\theta \in \Theta _{\gamma }$ mit der jeweiligen Gegenhypothese $H_{0,\gamma }:\theta \in \Theta \setminus \Theta _{\gamma }$ zur Verfügung stehen und wenn $H_{0}$ abgelehnt wird, falls alle Nullhypothesen $H_{0,\gamma }$ abgelehnt werden, dann wird ein Durchschnitts-Vereinigungs-Test (engl.: intersection-union test) durchgeführt. Der Ablehnungsbereich für den Test $H_{0}$ ist dann der Durchschnitt der Ablehnungsbereiche der einzelnen Tests. Im Unterschied zum multiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.

Wenn die einzelnen Tests Umfang- $\alpha _{\gamma }$ -Tests mit dem Ablehnungsbereich $A_{\gamma }$ sind, dann ist der Durchschnitts-Vereinigungs-Test mit dem Ablehnungsbereich $A=\bigcap _{\gamma \in \Gamma }A_{\gamma }$ ein Niveau- $\alpha$ -Test mit $\alpha =\sup _{\gamma \in \Gamma }\alpha _{\gamma }\;.$ ^[30] Daraus folgt insbesondere, dass der Durchschnitts-Vereinigungs-Test ein Niveau- $\alpha$ -Test ist, wenn alle einzelnen Tests Umfang- $\alpha$ -Tests sind.

Vereinigungs-Durchschnitts-Test

Die Vereinigungs-Durchschnitts-Methode^[31] zur Testkonstruktion kommt in Frage, wenn für eine zu testende Hypothese die Nullhypothese als Durchschnitt

H_{0}\colon \theta \in \bigcap _{\gamma \in \Gamma }\Theta _{\gamma }

mit einer endlichen oder unendlichen Indexmenge $\Gamma$ dargestellt werden kann. Wenn Tests für die einzelnen Hypothesen $H_{0,\gamma }:\theta \in \Theta _{\gamma }$ mit der jeweiligen Gegenhypothese $H_{0,\gamma }:\theta \in \Theta \setminus \Theta _{\gamma }$ zur Verfügung stehen und wenn $H_{0}$ abgelehnt wird, falls irgendeine der Hypothesen $H_{0,\gamma }$ abgelehnt wird, dann wird ein Vereinigungs-Durchschnitts-Test (engl.: union-intersection test) durchgeführt. Der Ablehnungsbereich für den Test $H_{0}$ ist dann die Vereinigung der Ablehnungsbereiche der einzelnen Tests. Im Unterschied zum multiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse.

Multiples Testen

Unter multiplem Testen versteht man die simultane Durchführung mehrerer Tests mit denselben Beobachtungen. Multiples Testen führt im Vergleich zur Durchführung eines einzelnen Tests zu mehreren Aufgaben:

Die Konzepte des Fehlers 1. Art (auch α-Fehler genannt) und der Fehlerwahrscheinlichkeit 1. Art müssen für multiple Tests verallgemeinert werden. Dies erfolgt durch die Konzepte des multiplen Fehlers 1. Art und der multiplen Fehlerwahrscheinlichkeit 1. Art.
Die betrachtete Familie der Hypothesen und die Tests sollten bestimmte Konsistenzbedingungen erfüllen, z. B. Kohärenz, Konsonanz und Abgeschlossenheit.
Die vorgegebenen Signifikanzniveaus müssen für mehrere Tests aufeinander abgestimmt werden. Im Zusammenhang mit dieser Fragestellung wird die Alphafehler-Kumulierung relevant.

Abgrenzung zu psychologischen und medizinischen Tests

Ein statistischer Test ist nicht dasselbe wie ein psychologischer Test oder ein medizinischer (Labor-)Test. Dies betrifft nicht nur den Anwendungsbereich, sondern auch die zugrundeliegende Logik. Bei der auf empirischen Studien basierenden Forschung werden selbstverständlich in den beiden Bereichen Psychologie und Medizin auch statistische Tests eingesetzt. Der wesentliche Kern eines statistischen Tests besteht darin, auf Grund des beobachteten Wertes einer zufälligen Beobachtung $X$ mit der unbekannten Verteilung $P$ zwischen zwei disjunkten nicht-leeren Verteilungsmengen ${\mathcal {P}}_{0}$ und ${\mathcal {P}}_{1}$ zu unterscheiden, wobei $P\in {\mathcal {P}}_{0}\cup {\mathcal {P}}_{1}$ vorausgesetzt ist. Dabei werden bei der Festlegung eines Ablehnungsbereiches im Sinn der Neyman-Pearson’schen Testtheorie bzw. bei einer p-Wert-basierten Testdurchführung die Fehlerwahrscheinlichkeiten 1. und 2. Art unsymmetrisch behandelt.

Psychologischer Test

Ein psychologischer Test versucht, eine nicht direkt messbare Eigenschaft von Personen (z. B. Intelligenz) durch mehrere quantifizierbare Hilfsvariablen zu messen. Die Methoden der Konstruktion und die Gütekriterien eines psychologischen Tests sind völlig andere als die Methoden der Konstruktion und die Gütekriterien eines statistischen Tests.

Medizinischer Test

Mit einem medizinischen Test ist meist ein Labor-Test als Hilfsmittel zur Diagnose gemeint. Dabei wird mit Hilfe der Menge einer z. B. im Blut, Speichel, Urin usw. gemessenen Indikatorsubstanz entschieden, ob der Patient krank (im Sinn einer bestimmten Diagnose) oder gesund ist. Ein solcher medizinischer Test ist eigentlich ein binäres Klassifikationsverfahren, hat aber auch formale Parallelität zu einem statistischen Test mit einfacher Nullhypothese und einfacher Gegenhypothese. Bei der Konstruktion eines Labor-Tests ist im Idealfall die Verteilung der Indikatorsubstanz einerseits in der Gruppe der Kranken und andererseits in der Gruppe der Nichtkranken bekannt. Die Festlegung eines Trennwertes legt die Fehlerwahrscheinlichkeiten 1. Art und 2. Art fest. Dabei wird versucht, durch geeignete Wahl der Indikatorsubstanz beide Fehlerwahrscheinlichkeiten möglichst klein zu halten bzw. die Komplemente der Fehlerwahrscheinlichkeiten, die bei medizinischen Anwendungen Sensitivität und Spezifität heißen, möglichst groß zu halten. Es ist in diesem Zusammenhang üblich, die Nullhypothese, auf die sich der Fehler Art 1. Art bezieht, als „der Patient ist gesund“ festzulegen. Bei gegebenen Verteilungen können durch Festlegung des Trennwertes unterschiedliche Kombinationen der Fehlerwahrscheinlichkeiten 1. Art und 2. Art erreicht werden, die durch die ROC-Kurve beschrieben sind. Die Konstruktion eines solchen Labor-Tests ist eher mit einem statistischen Alternativtest als mit einem Signifikanztest vergleichbar. Eine weitere statistische Komplikation besteht darin, dass die beiden Verteilungen in den Grundgesamtheiten der Gesunden und Kranken nicht bekannt sind, sondern aus Stichproben geschätzt werden müssen.

Vielen anderen Arten medizinischer Tests ist gemeinsam, dass die Nullhypothese einfach ist und inhaltlich je nach Fragestellung kein Effekt, kein Unterschied, keine Wirkung, nicht erkrankt, nicht infiziert usw. bedeutet. Durch Ablehnung der Nullhypothese wird versucht, einen Effekt, einen Unterschied, eine Wirkung, eine Erkrankung, eine Infektion usw. nachzuweisen. Ein beobachtetes Testergebnis heißt in diesem Zusammenhang Befund. Ein Befund, der zur Ablehnung der Nullhypothese führt, heißt positiver Befund, anderenfalls negativer Befund. Ein Fehler 1. Art heißt falsch-positive Entscheidung oder falsch-positive Diagnose, ein Fehler 2. Art heißt falsch-negative Entscheidung oder falsch-negative Diagnose. Bei einem Test mit einfacher Null- und einfacher Alternativhypothese gibt es nur eine Fehlerwahrscheinlichkeit 1. Art, die als 'der' $\alpha$ -Fehler bezeichnet wird, und nur eine Fehlerwahrscheinlichkeit 2. Art, die als 'der' $\beta$ -Fehler bezeichnet wird. In diesem Fall heißt das Komplement der Fehlerwahrscheinlichkeit 1. Art die Spezifität des Tests und das Komplement der Fehlerwahrscheinlichkeit 2. Art – die Trennschärfe, Macht oder Güte des Tests in statistischer Terminologie – heißt die Sensitivität des Tests. Die Sensitivität des Tests ist die Wahrscheinlichkeit einer richtigen positiven Diagnose. Die Spezifität des Tests ist die Wahrscheinlichkeit einer richtigen negativen Diagnose. Im medizinischen Bereich wird die Durchführung eines Tests auch Testung genannt.

Übersicht Tests

Die wichtigsten Tests lassen sich nach verschiedenen Kriterien charakterisieren, z. B. nach

Einsatzzweck, z. B. das Testen von Parametern einer Verteilung oder der Verteilung selbst
Anzahl der Stichproben
Abhängigkeit oder Unabhängigkeiten der Stichproben
Voraussetzungen über die Grundgesamtheit(en)

Falls nicht anders angegeben, wird bei allen Tests in der folgenden Übersicht davon ausgegangen, dass die Beobachtungen unabhängig und identisch verteilt sind. Es werden folgende Abkürzungen benutzt:

GG: Grundgesamtheit
GGen: Grundgesamtheiten
ZGS: Zentraler Grenzwertsatz

Nicht-parametrische Tests sind mit einem gelben Hintergrund gekennzeichnet.

Tests auf Lageparameter (Mittelwert, Median)

Test	Test bzgl.	Voraussetzung(en)
Für eine Stichprobe
Einstichproben-t-Test	Mittelwert	Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG ist unbekannt
Einstichproben-Gauß-Test	Mittelwert	Normalverteilung in der GG oder die Verteilung genügt dem ZGS (Faustregel: Stichprobenumfang größer 30), Varianz der GG ist bekannt
Vorzeichentest	Median
Für zwei unabhängige Stichproben
Zweistichproben-t-Test	Mittelwerte	Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt, aber gleich
Welch-Test	Mittelwerte	Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind unbekannt und ungleich
Zweistichproben-Gauß-Test	Mittelwerte	Normalverteilung in den GGen oder die Verteilungen genügen dem ZGS (Faustregel: Gesamtstichprobenumfang mindestens 50), Varianzen in GGen sind bekannt und gleich
Wilcoxon-Mann-Whitney-Test	Mittelwerte und Mediane	Verteilungsfunktionen sind gegeneinander verschoben
Median-Test	Mediane
Für zwei abhängige Stichproben
Zweistichproben-t-Test	Mittelwerte	Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz ist unbekannt
Zweistichproben-Gauß-Test	Mittelwerte	Die Differenz der Beobachtungen ist normalverteilt oder genügt dem ZGS (Faustregel: Stichprobenumfänge größer 30), Varianz der Differenz ist bekannt
Wilcoxon-Vorzeichen-Rang-Test	Mediane	Die Differenz der Beobachtungen ist symmetrisch (und stetig) verteilt
Vorzeichentest	Mediane
Für mehrere unabhängige Stichproben
Varianzanalyse	Mittelwerte	Normalverteilte GGen, Varianzen in GGen sind gleich
Kruskal-Wallis-Test	Mittelwerte und Mediane	Verteilungsfunktionen sind gegeneinander verschoben
Median-Test	Mediane
Für mehrere abhängige Stichproben
Varianzanalyse mit wiederholten Messungen	Mittelwert	Normalverteilte GGen, Sphärizität
Friedman-Test	Lageparameter
Quade-Test	Lageparameter

Tests auf Streuung

Test	Test bzgl.	Voraussetzung(en)
Für eine Stichprobe
F-Test	Varianz	Normalverteilte GG
Für zwei unabhängige Stichproben
F-Test	Varianzen	Normalverteilte GGen
Für zwei oder mehr unabhängige Stichproben
χ²-Test von Bartlett	Varianzen	Normalverteilte GGen
Levene-Test	Varianzen
Für eine multivariate Stichprobe
Bartlett-Test auf Sphärizität	Kovarianzmatrix

Tests auf Zusammenhangs- und Assoziationsparameter

Test	Test bzgl.	Voraussetzung(en)
Für zwei unabhängige Stichproben
Chi-Quadrat-Unabhängigkeitstest	Unabhängigkeit	GGen sind diskret verteilt
Exakter Test nach Fisher	Unabhängigkeit	GGen sind diskret verteilt
Steigers Z-Test	Bravais-Pearson-Korrelation	GGen sind bivariat normal verteilt
Für zwei abhängige Stichproben
McNemar-Test	Unabhängigkeit	GGen sind dichotom

Anpassungs- oder Verteilungstests

Test	Test bzgl.	Voraussetzung(en)
Für eine Stichprobe
Chi-Quadrat-Anpassungstest	vorg. Verteilung	GG ist diskret
Anderson-Darling-Test	vorg. Verteilung	GG ist stetig
Kolmogorow-Smirnow-Test	vorg. Verteilung	GG ist stetig
Cramér-von-Mises-Test	vorg. Verteilung	GG ist stetig
Jarque-Bera-Test	Normalverteilung	GG ist stetig
Lilliefors-Test	Normalverteilung	GG ist stetig
Shapiro-Wilk-Test	Normalverteilung	GG ist stetig
Für zwei Stichproben
Zweistichproben-Kolmogorow-Smirnow-Test	Identische Verteilungen	GGen sind stetig
Zweistichproben-Cramér-von-Mises-Test	Identische Verteilungen	GGen sind stetig
Für mehrere Stichproben
Chi-Quadrat-Homogenitätstest	Identische Verteilungen	GGen sind diskret

Tests in der Regressions- und Zeitreihenanalyse

Test	Test bzgl.	Voraussetzung(en)
Lineare Regression
globaler F-Test	„Bestimmtheitsmaß“	Normalverteilte Residuen
t-Test	Regressionskoeffizient	Normalverteilte Residuen
Goldfeld-Quandt-Test	Heteroskedastizität	Normalverteilte Residuen
Chow-Test	Strukturbruch	Normalverteilte Residuen
Zeitreihenanalyse
Durbin-Watson-Test	Autokorrelation	Normalverteilte Residuen, fixe Regressoren, nur Autokorrelation 1. Ordnung zulässig, keine Heteroskedastizität
Box-Pierce-Test	Autokorrelation	?
Ljung-Box-Test	Autokorrelation	?

Verschiedene Tests

Test	Test bzgl.	Voraussetzung(en)
Dichotome GG
Binomialtest	Anteilswert	GG ist dichotom
Run-Test	Zufälligkeit	GG ist dichotom
Ausreißer
Grubbs-Test	Gr. oder kl. Wert	GG ist normalverteilt
Walsh-Test	Gr. oder kl. Wert	Für ein Signifikanzniveau von 5 % (10 %) werden mindestens 220 (60) Werte benötigt
Allgemeine Tests der Maximum-Likelihood-Theorie
Likelihood-Quotienten-Test	Koeffizient o. Modelle
Wald-Test	Koeffizient o. Modelle
Score-Test	Koeffizient o. Modelle

Sonstiges

Eine besondere Art der Testdurchführung ist das sequentielle Testen, wobei der Stichprobenumfang nicht vorgegeben ist. Vielmehr wird bei der laufenden Datenerfassung für jede neue Beobachtung ein Test durchgeführt, ob man aufgrund der bereits erhobenen Daten eine Entscheidung für oder gegen die Nullhypothese treffen kann (siehe Sequentieller Likelihood-Quotienten-Test).

Tests	Kurzbeschreibung
Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung
Parametrische Tests
Test von Cochran/Cochrans Q	Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen
Kendall’scher Konkordanzkoeffizient/Kendalls W	Test auf Korrelation von Rangreihen
Friedman-Test	Test auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben
Quade-Test	Test auf Gleichheit des Lageparameters, bei unbekannter, aber identischer Verteilung im c-Stichprobenfall mit gepaarten Stichproben

Siehe auch

Anmerkungen

↑ Wir betrachten für $p$ den Parameterbereich [1/4,1], um zu erreichen, dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich überdecken. Bei absichtlichem Nennen einer falschen Farbe könnte man zwar auch auf Hellseh-Fähigkeiten schließen, aber wir nehmen an, dass die Testperson eine möglichst hohe Trefferzahl erzielen will.
↑ Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Kap. 1.1, S. 5.
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 93
↑ ^a ^b ^c Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 10.
↑ ^a ^b ^c Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 9.
↑ Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, S. 190.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 13.
↑ ^a ^b ^c Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 20.
↑ E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Gleichung (3.3), S. 62.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Gleichung (3.5), S. 13.
↑ George Casella, Roger L. Berger: Statistical Inference. 2002, Def. 8.36, S. 185.
↑ E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 44.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Gleichung (3.21), S. 22.
↑ Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, S. 190.
↑ Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Satz 1.38, S. 190.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 17.
↑ Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Beispiel 1.41, S. 43.
↑ Anil K. Bera, Malabika Koley: A History of the Delta Method and Some New Results. In: Sankhya B: The Indian Journal of Statistics. Band 85, 2023, doi:10.1007/s13571-023-00305-9.
↑ ^a ^b Joachim Hartung: Statistik Lehr- und Handbuch der angewandten Statistik. München 2009, ISBN 978-3-486-71054-0.
↑ ^a ^b Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 35–36.
↑ J. Hartung: Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991, S. 139.
↑ K. Bosch: Statistik-Taschenbuch. Oldenbourg, 1992, S. 669.
↑ ^a ^b Stefan Wellek, Maria Blettner: Klinische Studien zum Nachweis von Äquivalenz und Nichtunterlegenheit. Teil 20 der Serie zur Bewertung wissenschaftlicher Publikationen. In: Deutsches Ärzteblatt International. Band 109, Nr. 41, 2012, S. 674–678, doi:10.3238/arztbl2012.0674 (aerzteblatt.de).
↑ ^a ^b S. Lange, R. Bender, A. Ziegler: Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Artikel Nr. 20 der Statistik-Serie in der DMW. In: Deutsche Medizinische Wochenschrift. Band 132, 2007, S. e53–e56, doi:10.1055/s-2007-959043 (thieme-connect.com [PDF]).
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 248.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 248.
↑ Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Abschnitt 3.3.1, S. 248–263.
↑ Bernhard Rüger: Alternativtests für zwei einfache Hypothesen mit endlich vielen Ergebnissen. In: Metrika. Band 28, S. 71–77.
↑ George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, S. 381.
↑ George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, Theorem 8.3.23, S. 395.
↑ George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, S. 380–381.

Literatur

Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik [mit zahlreichen durchgerechneten Beispielen], 15., überarbeitete und erweiterte Auflage. Oldenbourg, München 2005, ISBN 978-3-486-59028-9.
George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, Kap. 8: Hypothesis Testing.
E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).
Horst Rinne: Taschenbuch der Statistik. 4., vollständig überarbeitete und erweiterte Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4.
Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. Oldenbourg, München 2002, ISBN 3-486-25130-9.
Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. Teubner, Stuttgart 1985, ISBN 3-519-02026-2.

Weblinks

Erklärung Hypothesentest/Signifikanztest/statistischer Test für Schüler
Statistical Tests Overview (englisch)
Statistische Versuchsauswertung (PDF) in der Anwendung: Eine Einführung in Theorie und Praxis (Vortraghandout, TUM)

[1] Wir betrachten für $p$ den Parameterbereich [1/4,1], um zu erreichen, dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich überdecken. Bei absichtlichem Nennen einer falschen Farbe könnte man zwar auch auf Hellseh-Fähigkeiten schließen, aber wir nehmen an, dass die Testperson eine möglichst hohe Trefferzahl erzielen will.

[2] Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Kap. 1.1, S. 5.

[3] George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 93

[Rue-2002-10-4] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 10.

[Rue2002-9-5] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 9.

[6] Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, S. 190.

[7] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 13.

[Rue2002-20-8] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 20.

[9] E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Gleichung (3.3), S. 62.

[10] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Gleichung (3.5), S. 13.

[11] George Casella, Roger L. Berger: Statistical Inference. 2002, Def. 8.36, S. 185.

[12] E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 44.

[13] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Gleichung (3.21), S. 22.

[14] Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, S. 190.

[15] Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Satz 1.38, S. 190.

[16] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 17.

[17] Hermann Witting: Mathematische Statistik I. Parametrische Verfahren bei festem Stichprobenumfang. 1985, Beispiel 1.41, S. 43.

[18] Anil K. Bera, Malabika Koley: A History of the Delta Method and Some New Results. In: Sankhya B: The Indian Journal of Statistics. Band 85, 2023, doi:10.1007/s13571-023-00305-9.

[:0-19] Joachim Hartung: Statistik Lehr- und Handbuch der angewandten Statistik. München 2009, ISBN 978-3-486-71054-0.

[Bortz2005-20] Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 35–36.

[Hartung1991-21] J. Hartung: Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991, S. 139.

[Bosch1-22] K. Bosch: Statistik-Taschenbuch. Oldenbourg, 1992, S. 669.

[wellek-23] Stefan Wellek, Maria Blettner: Klinische Studien zum Nachweis von Äquivalenz und Nichtunterlegenheit. Teil 20 der Serie zur Bewertung wissenschaftlicher Publikationen. In: Deutsches Ärzteblatt International. Band 109, Nr. 41, 2012, S. 674–678, doi:10.3238/arztbl2012.0674 (aerzteblatt.de).

[lange-24] S. Lange, R. Bender, A. Ziegler: Äquivalenzstudien und Nicht-Unterlegenheitsstudien. Artikel Nr. 20 der Statistik-Serie in der DMW. In: Deutsche Medizinische Wochenschrift. Band 132, 2007, S. e53–e56, doi:10.1055/s-2007-959043 (thieme-connect.com [PDF]).

[25] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 248.

[26] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 248.

[27] Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, Abschnitt 3.3.1, S. 248–263.

[28] Bernhard Rüger: Alternativtests für zwei einfache Hypothesen mit endlich vielen Ergebnissen. In: Metrika. Band 28, S. 71–77.

[29] George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, S. 381.

[30] George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, Theorem 8.3.23, S. 395.

[31] George Casella, Roger L. Berger: Statistical Inference. 2. Auflage. Duxbury, Pacific Grove 2002, ISBN 0-534-24312-6, S. 380–381.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]