Allgemeiner Test

abstraktes Instrument der mathematischen Statistik

Ein allgemeiner Test oder Entscheidungsverfahren ist ein abstraktes Instrument der mathematischen Statistik. Fast alle statistischen Tests, wie bspw. Hypothesentests oder Parameterpunktschätzungen, lassen sich in der Form eines allgemeinen Tests mathematisch erfassen. Ziel eines allgemeinen Tests ist es, auf Grund der (beobachteten) Realisierung einer oder mehrerer zuvor definierter Zufallsgrößen, deren genaue Wahrscheinlichkeitsverteilung i. d. R. nicht bekannt ist, bzgl. einer betrachteten Fragestellung eine Entscheidung zu treffen.

Beispiel: Ein Pharmaunternehmen möchte ein neu entwickeltes Medikament auf seine (unbekannte) Wirksamkeit testen. Hierfür bekommt eine bestimmte Anzahl von Patienten das Medikament verabreicht. Aufgrund der gemessenen Wirkung des Medikaments auf die Patienten muss sich das Pharmaunternehmen nun entscheiden, ob man das neue Medikament auf dem Markt einführt oder lieber weiter auf ein altbewährtes Medikament zurückgreift.

Entscheidet sich das Pharmaunternehmen für die Markteinführung des neuen Medikaments, so besteht die Gefahr, dass dieses durch das verwendete Entscheidungsverfahren nur fälschlicherweise als besser als das alte Medikament eingestuft wurde. In diesem Fall entstünde dem Pharmaunternehmen ein unnötiger Schaden. Um einen solchen zu vermeiden, liegt jedem allgemeinen Test eine sog. Schadensfunktion zugrunde, mit Hilfe derer man versucht durch die Wahl einer „geeigneten“ Entscheidungsfunktion das Risiko einer Entscheidung zu minimieren.

Definition

Bearbeiten

Gegeben sei ein Messraum   und eine Familie von Wahrscheinlichkeitsmaßen   auf  .   umfasst hierbei gerade alle möglichen Realisierungen oder Beobachtungen. Weiter sei   eine Menge von möglichen Entscheidungen.

  • Eine Abbildung   heißt Schadensfunktion.
  • Eine Abbildung   heißt genau dann allgemeiner Test, Entscheidungsfunktion oder auch Entscheidungsverfahren, wenn für jedes   die Abbildung   gerade  -messbar ist. Hierbei bezeichnet   die Borelsche σ-Algebra über  .

Gütekriterien

Bearbeiten

Es sei   eine Klasse von Entscheidungsfunktionen. Für ein Element   bezeichnet man

  vermöge  

als Risikofunktion. Diese gibt an, welcher Schaden durch die Anwendung des Tests   im Mittel unter der Verteilung   entsteht. Wegen   existiert diese immer, evtl. jedoch uneigentlich. Weiter bezeichnet man

 

als das Risiko von  .

Hat man nun weiter eine  -Algebra   über   und ein Wahrscheinlichkeitsmaß   auf   gegeben, so definiert   eine A-priori-Verteilung oder (subjektive) Vorbewertung auf der Parametermenge. Ist die Risikofunktion   messbar bzgl.  , so lässt sich hiermit das sog. Bayesrisiko des Tests   bzgl.   einführen, und zwar setzt man dann

 .

Effizienz

Bearbeiten

Mit Hilfe des Risikos und der Risikofunktion lassen sich nun zwei allgemeine Tests   miteinander vergleichen. Man sagt   ist mindestens so effizient wie  , wenn

 .

Im Falle einer Vorbewertung   lassen sich die Tests außerdem mit Hilfe des Bayesrisikos vergleichen. Man sagt dann   ist mindestens so effizient wie  , wenn  .

Optimalität

Bearbeiten

Die Optimalität eines Tests lässt sich auf verschiedenste Weisen einführen. Man bezeichnet einen Test   als

  • höchsteffizient in  , wenn   gilt.
  • Minimaxverfahren in  , wenn   gilt.
  • Bayeslösung in   bzgl.  , wenn   gilt.
  • multisubjektiv optimal oder  -Minimaxverfahren in  , wenn   eine Familie von Wahrscheinlichkeitsmaßen auf   ist und gilt  .

Bei festem Parameter   ist   der unvermeidbare Schaden für jeden Test in  . Für einen guten Test wird man deshalb verlangen, dass

 

möglichst klein wird („minimal regret“). Deshalb bezeichnet man   weiter als

  • strengsten Test in  , wenn   gilt.

Zusammenhang: Bei den hier aufgeführten Optimalitätskriterien lässt sich die Höchsteffizienz als stärkste Forderung einstufen, denn ist ein Test   höchsteffizient in  , so ist er bereits Minimaxverfahren, Bayeslösung, multisubjektiv optimal und auch strengster Test.

Beispiele

Bearbeiten

Hypothesentest

Bearbeiten

Bei einem Hypothesen- oder Signifikanztest betrachtet man zwei sich gegenseitig ausschließende Hypothesen   und  , von denen man in der Regel eine, bspw.  , versucht aufgrund einer Beobachtung   zu verwerfen. Die Menge der möglichen Entscheidungen ist deshalb von der Form  , wobei man definiert:

  „Hypothese   kann verworfen werden.“
  „Hypothese   kann nicht verworfen werden, es lässt sich also keine Folgerung aus dem Experiment ziehen.“

Parameterpunktschätzung

Bearbeiten

Gegeben sei eine Zufallsgröße   bzgl. zweier Messräume   und  , die der Verteilungsfamilie   unterliegt. Unbekannt sei hierbei der „wahre“ Parameter  . Diesen, bzw. allgemeiner einen von   abhängenden Wert  , gilt es zu schätzen. Als Entscheidungsraum betrachtet man deshalb  . Als Schadensfunktion verwendet man häufig

 .

Damit ergibt sich für einen Test   als Risikofunktion die mittlere quadratische Abweichung der Schätzung von dem zu schätzenden Wert, denn

 .

Parameterbereichsschätzung

Bearbeiten

Betrachtet wird wieder die Zufallsgröße  . Schätzen möchte man einen Bereich, in dem man den „wahren“ Parameter   vermutet. Man setzt hierfür  . Die Leere Menge schließt man als Entscheidung aus, da das Schätzen dieser nicht sinnvoll wäre. Als Schadensfunktion bietet sich die Abbildung   mit   an. Mit ihr erhält man für einen Test   die Risikofunktion

 

d. h.   ist gerade die Wahrscheinlichkeit, mit welcher der Parameter   nicht in der geschätzten Menge liegt. Man nennt   deshalb auch die Irrtumswahrscheinlichkeit des Verfahrens   für den Parameter  . Das Risiko   bezeichnet man als Signifikanzschranke von  .