Beurteilung eines qualitativen Tests

Bearbeiten

Qualitative Tests kommen bei medizinischen und anderen Fragestellungen zur Anwendung und unterscheiden sich von quantitativen Tests dadurch, dass sie keinen Messwert, sondern nur eine ja/nein-Aussage liefern (in der Regel positiv/negativ, also z.B. krank/nicht krank). Beispiele sind Schwangerschaftstests, Drogentests oder Haemoccult-Tests. Häufig handelt es sich hiebei um Screening-Tests, die schnell eine vorläufige Aussage liefern, die dann (ggf. nur im positiven Fall) durch aufwendigere Verfahren bestätigt werden muß.

Da qualitative Tests nicht zu 100% richtige Ergebnisse liefern, werden sie mit statistischen Verfahren bewertet. Dabei werden z.B. Personen getestet und überprüft, ob das Testergebnis richtig war.

Alternativ kann die Evaluierung eines Tests durch Experten erfolgen

Die Validierung auf Daten hat als Nachteil, dass Trainingsdaten zur Validierung „verschwendet“ werden (Out-of-Sample Testing). Dieses Dilemma kann durch Kreuzvalidierungsverfahren gelöst werden: Man teilt die Datensätze in n Teile. Dann nutzt man für jede Partition p die anderen n-1 Partitionen zum Lernen und die Partition p zum Testen.

Wahrheitsmatrix: Richtige und falsche Ergebnisse

Bearbeiten
 
Ein Test soll kranke und gesunde Menschen voneinander unterscheiden. Jeder Mensch wird durch einen Punkt dargestellt, der links (krank) bzw. rechts (gesund) der schwarzen Linie liegt.
Die Punkte im Oval sind die von dem Test als krank klassifizierten Menschen. Richtig bewertete Fälle sind grün, falsch bewertete rot unterlegt.

Um einen Test zu bewerten, muss man ihn in einer Reihe von Fällen anwenden, bei denen man zumindest im Nachhinein Kenntnis über das "wahre Ergebnis" hat. Ein Beispiel für so einen Fall ist ein medizinischer Labortest, mit dem festgestellt werden soll, ob eine Person eine bestimmte Krankheit hat. Später wird durch aufwändigere Untersuchungen festgestellt, ob die Person tatsächlich an dieser Krankheit leidet. Der Test stellt einen Klassifikator dar, der die Personen in die Kategorien „krank“ und „gesund“ einordnet. Da es sich um eine Ja/Nein-Frage handelt, sagt man auch, der Test fällt positiv (Einordnung „krank“) oder negativ (Einordnung „gesund“) aus. Um zu beurteilen, wie gut geeignet der Labortest für die Diagnose der Krankheit ist, wird nun bei jedem Patienten dessen tatsächlicher Gesundheitszustand mit dem Ergebnis des Tests verglichen. Dabei können vier mögliche Fälle auftreten:

  1. Richtig positiv: Der Patient ist krank, und der Test hat dies richtig angezeigt.
  2. Falsch negativ: Der Patient ist krank, aber der Test hat ihn fälschlicherweise als gesund eingestuft.
  3. Falsch positiv: Der Patient ist gesund, aber der Test hat ihn fälschlicherweise als krank eingestuft.
  4. Richtig negativ: Der Patient ist gesund, und der Test hat dies richtig angezeigt.

Im ersten und letzten Fall war die Diagnose also richtig, in den anderen beiden Fällen liegt ein Fehler vor. Die vier Fälle werden in verschiedenen Kontexten auch anders benannt. So sind auch die englischen Begriffe true positive, false positive, false negative und true negative gebräuchlich. Im Rahmen der Signalentdeckungstheorie werden richtig positive Fälle auch als hit, falsch negative Fälle als miss und richtig negative Fälle als correct rejection bezeichnet.

Es wird nun gezählt, wie häufig jede der vier möglichen Kombinationen von Testergebnis (ermittelte Klasse) und Gesundheitszustand (tatsächliche Klasse) vorgekommen ist. Diese Häufigkeiten werden in eine sogenannte Wahrheitsmatrix (auch Konfusionsmatrix genannt) eingetragen:

Person ist krank (rp+fn) Person ist gesund (fp+rn)
Test positiv (rp+fp) richtig positiv (rp) falsch positiv (fp)
Test negativ (fn+rn) falsch negativ (fn) richtig negativ (rn)


Sensitivität und Falsch-negativ-Rate

Bearbeiten
 
Sensitivität

Die Sensitivität (auch Richtig-positiv-Rate, Empfindlichkeit oder Trefferquote; englisch sensitivity, true positive rate, recall oder hit rate) gibt den Anteil der korrekt als positiv klassifizierten Objekte an der Gesamtheit der tatsächlich positiven Objekte an. Beispielsweise entspricht Sensitivität bei einer medizinischen Diagnose dem Anteil an tatsächlich Kranken, bei denen die Krankheit auch erkannt wurde.

 
 
Falsch-negativ-Rate

Entsprechend gibt die Falsch-negativ-Rate (englisch false negative rate oder miss rate) den Anteil der fälschlich als negativ klassifizierten Objekte an der Gesamtheit der tatsächlich positiven Objekte an. Also im Beispiel die tatsächlich Kranken, die aber als gesund diagnostiziert werden.


 .

Da sich beide Maße auf den Fall beziehen, dass in Wirklichkeit die positive Kategorie vorliegt (erste Spalte der Wahrheitsmatrix), addieren sich die Sensitivität und die Falsch-negativ-Rate zu 1 bzw. 100 %.

Spezifität und Falsch-positiv-Rate

Bearbeiten

usw...