Reliabilität

Die Reliabilität anhören^ⓘ^/?(lat. reliabilitas „Zuverlässigkeit“) ist ein Maß für die formale Genauigkeit und die daraus resultierende Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede im zu messenden Merkmal und nicht durch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend frei von Zufallsfehlern sein, d. h. bei Wiederholung der Messung unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt werden (Reproduzierbarkeit von Ergebnissen unter gleichen Bedingungen).

Die Reliabilität stellt neben der Validität und der Objektivität eines der drei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität ist notwendig aber keinesfalls hinreichend für hohe Validität. Eine Erhöhung der Reliabilität kann die Validität verringern (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst drei Aspekte:

Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
Äquivalenz (Gleichwertigkeit von Messungen)

In der psychologischen Diagnostik wird sie zu den Hauptgütekriterien von psychologischen Tests gerechnet. Sie ist einer von mehreren Anhaltspunkten, wie genau ein Persönlichkeits- oder Verhaltensmerkmal gemessen wird.

Typen

Die Reliabilität kann mit verschiedenen Methoden geschätzt werden. Je nach Methode wird von verschiedenen Reliabilitätstypen gesprochen.

Paralleltest-Reliabilität: Denselben Versuchspersonen werden zwei einander stark ähnelnde Tests (entweder unmittelbar hintereinander oder zeitlich versetzt) dargeboten. Die Paralleltest-Reliabilität wird im Paralleltest-Verfahren bestimmt. Sie gibt an, ob ein vergleichbares Messverfahren identische Ergebnisse liefert. Anstelle gleichwertiger Testverfahren können auch Parallelformen des Tests verwendet werden (zum Beispiel dürften die Aufgaben $3+4=?$ und $2+5=?$ gleichermaßen dazu geeignet sein, die Fähigkeit zur einfachen Addition zu messen).

Split-Half-Reliabilität/Testhalbierungsmethode: Bei der Split-Half-Reliabilität wird der Test in zwei Hälften unterteilt, jede Hälfte ist ein Paralleltest zur anderen Hälfte. Bei hinreichend großer Ergebnismenge sollten die Mittelwerte und weitere statistische Kenngrößen gleich sein. Die Zuteilung der einzelnen Items zu den Testhälften erfolgt üblicherweise nach der Odd-Even-Methode, d. h. Items mit ungerader (odd) Laufnummer kommen in die eine, Items mit gerader (even) Laufnummer in die andere Testhälfte. Da man, mathematisch gesehen, in diesem Fall jedoch eigentlich nur die Reliabilität des „halben“ Tests erhält und die Split-Half-Reliabilität die tatsächliche Reliabilität unterschätzt, muss das ursprüngliche Ergebnis mit der Spearman-Brown-Korrektur korrigiert werden. Die Testhalbierungsmethode führt bei Tests mit Geschwindigkeitskomponente (Speed-Test) zu einem verzerrten Reliabilitätskoeffizienten (künstlich erhöht oder verringert).

Retest-Reliabilität: Die Retest-Reliabilität (auch: Re-Test-Reliabilität^[1]) ist die Reliabilität bei einer Messwiederholung: Der gleiche Test wird den Versuchspersonen zu verschiedenen Zeitpunkten dargeboten. Die Ergebnisse der ersten und zweiten Messung werden korreliert. Beim Test-Retest-Verfahren wird geprüft, ob eine Wiederholung der Messung bei Konstanz der zu messenden Eigenschaft die gleichen Messwerte liefert. Die Retest-Reliabilität gibt den Grad der Übereinstimmung an. Für viele Tests ist eine Wiederholung entsprechend dem Test-Retest-Verfahren nur theoretisch möglich, da die mit dem Test einhergehenden Erinnerungs-, Lern- oder Übungseffekte das Ergebnis beeinflussen und eine „Scheinreliabilität“ vortäuschen können. So besteht etwa bei mathematischen Aufgaben die Möglichkeit, dass der Proband sich an die Lösung aus dem ersten Test erinnert. Das Zeitintervall zwischen den Messungen muss also groß genug sein, um Gedächtniseffekte auszuschließen, gleichzeitig aber kurz genug, um Merkmalskonstanz zu gewährleisten. Mit der Retest-Reliabilität können keine systematischen, versuchsbedingten Fehler entdeckt werden.

Interne Konsistenz: Die interne Konsistenz ist ein Maß dafür, wie die Items einer Skala miteinander zusammenhängen. Interne Konsistenz stellt gewissermaßen einen Umweg dar, die Messgenauigkeit eines Instruments zu erheben, wenn kein Retest oder Paralleltest zur Reliabilitätsbestimmung zur Verfügung steht. Es erfolgt die Reliabilitätsmessung also intern, wobei jedes Item gewissermaßen als Paralleltest behandelt und mit jedem anderen Item korreliert wird (Interkorrelationsmatrix). Die Güte eines Items kann hierbei ermittelt werden, indem die interne Konsistenz berechnet wird, wenn das Item nicht in der Skala enthalten wäre. Eine gebräuchliche Kenngröße für die interne Konsistenz kann bei dichotomen Items mit der Kuder-Richardson-Formel berechnet werden. Für Items einer Intervallskala ist je nach Messmodell eine Kenngröße durch tau-äquivalente Reliabilität (= „Cronbachs Alpha“) oder kongenerische Reliabilität gegeben, alternativ auch McDonald’s Omega.^[2]

Interrater-Reliabilität: Die Interrater-Reliabilität ist keine Form der Reliabilität, obwohl der Name das suggeriert. Stattdessen wird sie dem Gütekriterium Objektivität zugeordnet, da sie die Übereinstimmung zwischen verschiedenen Beobachtern misst. Weitere gängige Übereinstimmungsmaße sind zum Beispiel Cohens Kappa oder der Übereinstimmungskoeffizient nach Holsti.

Verbesserungsmöglichkeiten

Die Reliabilität der Tests kann durch Verlängerung des Tests mithilfe vergleichbarer Items verbessert werden, weil mit der Länge des Tests die Messgenauigkeit steigt.
Die Objektivität ist eine notwendige Bedingung für die Reliabilität. Entsprechend kann eine Objektivitätsverbesserung die Reliabilität des Messinstruments erhöhen.
Beim Formulieren der Items sollte Itemhomogenität angestrebt werden. Items sind homogen, wenn sie sich gegenseitig beinhalten. Das bedeutet, dass Versuchspersonen, die das extreme Item bejahen, auch das schwächer formulierte Item bejahen bzw. ein negativ gepoltes Item verneinen.
Wenig trennscharfe Items sollten ausgeschlossen werden. Ein Item, das gut zwischen Personen mit niedriger und hoher Merkmalsausprägung trennt, trägt zur Messgenauigkeit des Tests bei.

Siehe auch

Attenuationskorrektur

Literatur

Joachim Krauth: Testkonstruktion und Testtheorie. Psychologie Verlags Union, Weinheim 1995, ISBN 3-621-27286-0
G. A. Lienert: Testaufbau und Testanalyse. 4. Auflage. Psychologie Verlags Union, Weinheim 1989
G. Lienert, A. Raatz: Testanalyse und Testkonstruktion. Beltz, Weinheim 2001
M. Wirtz, F. Caspar: Beurteilerübereinstimmung und Beurteilerreliabilität. Hogrefe, Göttingen 2002
M. Bühner: Einführung in die Test- und Fragebogenkonstruktion. Pearson Studium, München 2006

Weblinks

Wiktionary: Reliabilität – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

MS-Excel-Makro zur Berechnung verschiedener Reliabilitätskoeffizienten (Memento vom 21. Juni 2012 im Internet Archive)

Einzelnachweise

↑ Christian Becker-Carus, Mike Wendt: Allgemeine Psychologie. Eine Einführung. 2. Auflage. Springer Verlag, Berlin, Heidelberg 2017, ISBN 978-3-662-53006-1, S. 21.
↑ William Revelle, Richard E. Zinbarg: Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma In: Psychometrika. 2009, Vol. 74, No. 1, S. 145–154, doi:10.1007/s11336-008-9102-z.

[1] Christian Becker-Carus, Mike Wendt: Allgemeine Psychologie. Eine Einführung. 2. Auflage. Springer Verlag, Berlin, Heidelberg 2017, ISBN 978-3-662-53006-1, S. 21.

[2] William Revelle, Richard E. Zinbarg: Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma In: Psychometrika. 2009, Vol. 74, No. 1, S. 145–154, doi:10.1007/s11336-008-9102-z.

[1]

[2]