Interrater-Reliabilität

Die Interrater-Reliabilität oder Urteilerübereinstimmung bezeichnet in der empirischen Sozialforschung (u. a. Psychologie, Soziologie, Epidemiologie etc.) das Ausmaß der Übereinstimmungen (Konkordanzen) der Einschätzungsergebnisse bei unterschiedlichen Beobachtern („Ratern“). Hierdurch kann angegeben werden, inwieweit die Ergebnisse vom Beobachter unabhängig sind, weshalb es sich genau genommen um ein Maß der Objektivität handelt. Die Reliabilität ist ein Maß für die Güte der Methode, die zur Messung einer bestimmten Variablen eingesetzt werden. Dabei kann zwischen Interrater- und Intrarater-Reliabilität unterschieden werden.

Interrater-Reliabilität

An einem bestimmten Objekt wird durch zwei unterschiedliche Messpersonalen dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Ein Beispiel: Ein Paar von Personen (Person A und B) führten ein Gespräch. Zwei Urteiler (Rater 1 und 2) beobachteten die zwei Personen und schätzten die Rededauer der Person A und Person B ein. Die Einschätzungen zeigten sich in einer Ratingskala: Extrem kurz (−3) - sehr kurz (−2) - kurz (−1) - mittelmäßig (0) - lang (+1) - sehr lang (+2) - extrem lang (+3). Rater 1 schätzte die Rededauer von Person A mit −3 und von Person B mit +3 ein. Rater 2 gab −2 für die Rededauer von Person A und +2 von Person B.^[1]

	Person A	Person B
Rater 1	−3	+3
Rater 2	−2	+2

In diesem Fall kann man sagen, dass die Interrater-Reliabilität nicht schlecht ist.

Unter diesem Prinzip können ähnliche Überprüfungen mit noch mehr Ratern und Messobjekten vollgezogen werden.

Intrarater-Reliabilität

An einem bestimmten Objekt wird durch ein Messinstrument zweimal dieselbe Messung vorgenommen. Die Ergebnisse sollten gleich sein. Beispiel: Ein Proband wird von einem Interviewer zweimal zu unterschiedlichen Zeitpunkten zum selben Thema befragt.

Kappa-Statistiken

Es gibt eine Reihe statistischer Verfahren, die zur Bestimmung der Interrater-Reliabilität eingesetzt werden können. Handelt es sich um zwei (oder mehr) unterschiedliche Beobachter, die gleichzeitig mehrere Beobachtungsobjekte (= Fälle, Probanden) kategorial einschätzen, so lässt sich die Interrater-Reliabilität mittels Cohens Kappa (für zwei Rater) bzw. Fleiss’ Kappa (für mehr als zwei Rater) abschätzen. Die Kappa-Statistiken prüfen das Ausmaß an Konkordanz durch Einbezug und Vergleich zu dem durch „zufälliges Einschätzen“ typischerweise erreichbaren Ausmaß an Übereinstimmung. Dabei wird davon ausgegangen, dass die einzelnen Einschätzungen eines Raters vollkommen unabhängig voneinander getroffen werden. Kappa kann Werte zwischen +1.0 (bei hoher Konkordanz) und $<=0$ (bei niedriger Konkordanz) annehmen. Sie sind insbesondere für Variablen auf Nominalskalenniveau geeignet.

Die Nutzung von Kappa-Statistiken wird auch kritisiert, da die Werte dieser Statistik durch ihre mathematische Unzulänglichkeit zumeist keine Aussage erlauben,^[2] stattdessen wird Krippendorffs Alpha empfohlen.

Inter-Rater-Korrelation

Für höhere Skalenniveaus nutzen andere Verfahren den Pearsonscher Maßkorrelationskoeffizienten bzw. Rangkorrelationskoeffizienten nach Spearman und Kendall zur Bestimmung der Inter-Rater-Korrelation zwischen zwei Ratern, wobei jeweils miteinander gepaarte Urteilswerte in Beziehung miteinander gesetzt werden. Der Inter-Rater-Korrelationskoeffizient beschreibt dabei allerdings lediglich einen (irgendwie) gearteten Zusammenhang der beiden Messungen, ohne dass Abweichungen zwischen den Urteilern eine Rolle spielen. So spielen z. B. gleichbleibende Milde- oder Strenge-Tendenzen keine Rolle.

Beispiel: Rater 1 schätzt 4 Objekte auf einer Skala wie folgt ein: $1,2,1,3$ ; Rater 2 urteilt auf derselben Skala für gleichen Objekte: $2,3,2,4$ . Die Inter-Rater-Korrelation beträgt r=1 und ist vollkommen, obwohl die Urteiler nicht übereinstimmen.

Eine Alternative für ordinalskalierte Daten ist hier der Kendall’sche Konkordanzkoeffizient W, bei dem es um die Berechnung des Ausmaßes der Übereinstimmung bei zwei oder mehr Beurteilern geht.

Intraklassen-Korrelation

Für intervallskalierte Daten beschreibt der Intraklassen-Korrelationskoeffizient (ICC, Shrout & Fleiss 1979, McGraw & Wong 1996), dass die beiden Messwerte den gleichen Wert haben sollen. Er setzt intervallskalierte Daten voraus und wird in der Regel berechnet, wenn mehr als zwei Beobachter vorhanden sind oder/und zwei oder mehr Beobachtungszeitpunkte einbezogen werden sollen.

Literatur

J. Cohen: A coefficient for agreement for nominal scales. In: Education and Psychological Measurement. 20, 1960, S. 37–46, doi:10.1177/001316446002000104.
J. L. Fleiss: Measuring nominal scale agreement among many raters. In: Psychological Bulletin. 76(5), 1971, S. 378–382, doi:10.1037/h0031619.
K. O. McGraw, S. P. Wong: Forming inferences about some intraclass correlation coefficients. In: Psychological Methods. 1, 1996, S. 30–46, doi:10.1037/1082-989X.1.1.30.
P. Shrout, J. L. Fleiss: Intraclass correlation: Uses in assessing rater reliability. In: Psychological Bulletin. 86, 1979, S. 420–428, doi:10.1037/0033-2909.86.2.420.
M. Wirtz, F. Caspar: Beurteilerübereinstimmung und Beurteilerreliabilität. Hogrefe, Göttingen [u. a.] 2002, ISBN 3-8017-1646-5.

Weblinks

Statistical Methods for Rater Agreement by John Übersax (englisch)
Ausführlicher Artikel zu Methoden der Inter- und Intrarater-Reliabilität im medizinischen Umfeld
Excel-Arbeitsblatt mit mehreren berechenbaren Koeffizienten (Memento vom 21. Juni 2012 im Internet Archive)

Einzelnachweise

↑ Markus Wirtz: Beurteilerübereinstimmung und Beurteilerreliabilität : Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Hogrefe, Göttingen 2002, ISBN 3-8017-1646-5.
↑ K. Krippendorf: Reliability in Content Analysis: Some Common Misconceptions and Recommendations. In: Human Communication Research. 30(3), 2004, S. 411–433, doi:10.1111/j.1468-2958.2004.tb00738.x.

[1] Markus Wirtz: Beurteilerübereinstimmung und Beurteilerreliabilität : Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Hogrefe, Göttingen 2002, ISBN 3-8017-1646-5.

[2] K. Krippendorf: Reliability in Content Analysis: Some Common Misconceptions and Recommendations. In: Human Communication Research. 30(3), 2004, S. 411–433, doi:10.1111/j.1468-2958.2004.tb00738.x.

[1]

[2]