Cronbachsches Alpha

Maß der internen Konsistenz einer Skala

Das cronbachsche (Alpha) ist eine nach Lee Cronbach benannte Maßzahl für die interne Konsistenz einer Skala und bezeichnet das Ausmaß, in dem die Aufgaben bzw. Fragen einer Skala miteinander in Beziehung stehen (interrelatedness[1]). Es ist hingegen kein Maß für die Eindimensionalität einer Skala. Das cronbachsche Alpha wird vor allem in den Sozialwissenschaften bzw. in der Psychologie verwendet – insbesondere bei der Testkonstruktion und -evaluation. Es wird angewendet, um die interne Konsistenz eines psychometrischen Instruments zu schätzen. In der jüngeren Literatur wird der Begriff cronbachsches abgelehnt und stattdessen der Begriff tau-äquivalente Reliabilität () vorgeschlagen.[2] Die tau-äquivalente Reliabilität ist u. a. in der Psychometrie von Bedeutung.

Geschichte

Bearbeiten
 
Ein tau-äquivalentes Messmodell ist ein Spezialfall des hier abgebildeten kongenerischen Messmodells, bei dem alle Faktorladungen als identisch angenommen werden, d. h.  .

Die erste Bezeichnung als Alpha geschah 1951 durch Cronbach, obwohl die Kuder-Richardsonsche Formel eine ältere Version für dichotome Items darstellt und Louis Guttman die gleiche Maßzahl bereits 1945 unter dem Namen Lambda-3[3] entwickelt hatte. In jüngster Zeit wird die Verwendung des cronbachschen Alphas und des Begriffes zunehmend kritisiert. Eunseong Cho (2016) schlägt vor, statt des cronbachschen Alphas konsequent von tau-äquivalenter Reliabilität   zu sprechen; Cho verdeutlicht zudem, dass statt   in vielen Fällen eine Verwendung der kongenerischen Reliabilität   angebracht ist (s. dort).[2]

Definition

Bearbeiten

Geht man davon aus, dass eine Stichprobe hinsichtlich einer Gruppe von k Items untersucht wurde, dann ist das cronbachsche   definiert als die durchschnittliche Korrelation zwischen diesen Items, nach oben korrigiert um k durch die Spearman-Brown-Formel. Deshalb wird das cronbachsche Alpha auch als Maß der internen Konsistenz einer Skala bezeichnet. Das cronbachsche   hängt zusammen mit dem Ergebnis einer Varianzanalyse der Itemdaten hinsichtlich der Varianz zwischen den Testpersonen und der Varianz zwischen den Items. Je höher die proportionale Varianz zwischen den Testpersonen, desto höher ist auch das cronbachsche  .

Die Formel zur Berechnung eines standardisierten cronbachschen   lautet:

 ,

wobei   die Anzahl der Komponenten (Items oder Subskalen) und   die durchschnittliche Korrelation zwischen den Items bezeichnet. Alternativ ergibt sich das cronbachsche   aus

 ,

wobei   die Anzahl der Komponenten (Items oder Subskalen),   die Varianz der beobachteten Gesamttestscores und   die Varianz in Komponente (Item, Subskala)   ist. Für Likert-Skalen gilt in der Regel  .

Alternative Formel

Bearbeiten

Cho (2016) schlägt eine alternative Formel zur Berechnung der tau-äquivalenten Reliabilität   vor. Diese Formel ist äquivalent zur vorhergehenden, führt somit zum gleichen Ergebnis:

 

Hierbei ist   die Anzahl der Indikatoren (englisch items) des Messmodells,   die durchschnittliche Kovarianz zwischen den Indikatoren und   die Varianz des Testergebnisses. Vorteil dieser Formel ist, dass sie in das von Cho (2016) vorgestellte System aus Formeln eingebettet ist und einen Vergleich zu anderen Koeffizienten, etwa für die kongenerische Reliabilität, erleichtert. Die zuvor fehlende Systematik bei der Benennung ist zudem der Grund, warum Cho auf den Begriff „cronbachsches  “ verzichtet und stattdessen von „tau-äquivalenter Reliabilität  “ spricht. Beide Begriffe sind jedoch Synonyme.

Ein Rechenbeispiel sowohl für die traditionelle als auch die alternative Formel findet sich in Tabelle 9 in Cho (2016).[2]

Interpretation

Bearbeiten
Faustregel zur Interpretation der Alpha-Werte[4]
  Bedeutung
> 0,9 exzellent
> 0,8 gut
> 0,7 akzeptabel
> 0,6 fragwürdig
> 0,5 schlecht
  0,5 inakzeptabel

  kann Werte zwischen minus unendlich und 1 annehmen (obwohl nur positive Werte sinnvoll interpretierbar sind). Als Faustregel sollte ein beliebiges psychometrisches Instrument nur verwendet werden, wenn ein Wert für   von 0,65 oder mehr erreicht wird. Als kritisch wird allerdings auch ein sehr hoher Wert (z. B. 0,95) eingeschätzt, da dies darauf hindeutet, dass mehrere Items redundant sind.[5] Bei kleineren Werten kann mittels einer Faktorenanalyse geprüft werden, ob sich die Items auf mehrere Faktoren verteilen.

Sehr häufig findet sich in wissenschaftlichen Arbeiten ein Verweis auf Nunnally (1978), wonach dieser angeblich vorgeschlagen habe, dass ein Wert von 0,7 oder mehr als akzeptabel gelte. Tatsächlich hat Nunnally jedoch sehr sorgsam die Verwendung des Koeffizienten diskutiert und keineswegs eine strenge Vorgabe gemacht.[6] Für   ist daher zu beachten, dass strenge Regeln, die Messmodelle unterhalb eines Schwellwertes automatisch ablehnen und oberhalb eines Schwellwertes automatisch annehmen, sich in der Regel verbieten.[7] Die Tabelle in diesem Abschnitt kann daher nur als Anhaltspunkt dienen. Insbesondere sollten Indikatoren aufgrund eines niedrigen Wertes nicht vorschnell entfernt werden, da dies auf Kosten der Inhaltsvalidität gehen könnte. Ein Ordnungsrahmen für die Eliminierung von Indikatoren aus Messskalen, der neben statistischen Kriterien wie   auch bewertende Kriterien mit einbezieht, ist in Wieland et al. (2017) beschrieben.[8]

Problematisch an derartigen Vorgaben ist zudem, dass die Reliabilität eines Instruments sehr leicht zu Lasten der Bandbreite erreicht werden kann. Dieses Problem wird auch als Bandbreiten-Fidelitätsdilemma oder Reliabilitäts-Validitäts-Dilemma bezeichnet. Je breiter und allgemeiner ein Instrument misst, umso mehr Chancen bestehen in der Regel, auch breite und entfernte Kriterien vorherzusagen. Auf der anderen Seite leidet durch die Breite die Reliabilität. Eine Lösung dieses Problems bietet in der Regel nur die Verlängerung des Tests.

Das cronbachsche Alpha wird oft fälschlicherweise als Beleg für Eindimensionalität einer Skala interpretiert.[9] Eine Skala kann mehrdimensional sein und gleichwohl eine hohe innere Konsistenz, folglich also ein hohes cronbachsches Alpha, aufweisen.[1] Beispiel wäre eine Skala, die Items zu Depression und Ängstlichkeit vermischt darbietet, also zweidimensional ist, und doch eine hohe Konsistenz hat.

Beispiel

Bearbeiten
Korrelation Klassik Jazz Oper Rap Heavy
Metal
Blues/
R&B
Klassik 1 0,29 0,51 0,03 0,01 0,21
Jazz 1 0,21 0,22 0,09 0,54
Oper 1 0,08 −0,04 0,19
Rap 1 0,30 0,17
Heavy Metal 1 0,09
Blues/R&B 1

Im General Social Survey 1993 wird mit   nach verschiedenen Musikrichtungen gefragt mit den Antwortkategorien (1 = Mag Musikrichtung, 2 = Unentschieden, 3 = Mag Musikrichtung nicht). Wird nun eine Skala Mag Musik als Summe der Einzelskalen für jede Musikrichtung gebildet, so ergibt sich die mittlere Korrelation

 

und

 

In diesem Fall wird die neue Skala meistens nicht als reliabel (zuverlässig) angesehen, wegen  . Der Grund liegt darin, dass die Korrelationsmatrix mindestens zwei Subskalen zeigt: Klassik/Oper und Jazz/Blues/R&B, d. h., bei Anwendung des cronbachschen   sollte man sicher sein, dass die Items wirklich nur eine Skala bilden (Überprüfung mit der Faktorenanalyse).

Berechnung des cronbachschen α mit gängiger Statistiksoftware

Bearbeiten

Für die freie Statistiksoftware R gibt es mehrere Pakete, die Funktionen zur Berechnung des cronbachschen   enthalten, z. B. multilevel::cronbach, psy::cronbach, psych::alpha und psychometric::alpha. Das R-Paket cocron[10] ist auch als freies Web-Interface verfügbar und erlaubt den statistischen Vergleich von zwei oder mehr abhängigen und unabhängigen cronbachschen Alphas.

In SAS lautet die Kommandozeile proc corr data=variable1 variable2 … variablen alpha plots;.

In SPSS wählt man „Analysieren“, danach „Skalierung“ bzw. „Skala“, dann „Reliabilitätsanalyse“ an und wählt die gewünschten Variablen aus. Für diese wird dann das cronbachsche Alpha berechnet. Der Syntaxbefehl seit Programmversion 17.0 lautet RELIABILITY VARIABLES=[VARIABLES] /MODEL=ALPHA..

Mit dem Programmpaket Stata lässt sich das cronbachsche   mit der Anweisung alpha varlist [if] [in] [, options] berechnen. Die Item-Test- und Item-Rest-Korrelationen werden durch Auswahl der Option item angegeben. Mit der Option generate(newvar) wird die ermittelte Skala als Variable gespeichert. Sollen die Items der Skala zuvor (auf den Mittelwert 0 und Varianz 1) standardisiert werden, so ist die Option std zusätzlich anzufügen.

Alternativen

Bearbeiten

Das cronbachsche  , oder besser die tau-äquivalente Reliabilität ( ), geht von gleichen Faktorladungen aller Indikatoren aus. Diese Voraussetzung wird in der Realität jedoch selten erfüllt, wodurch die Reliabilität unterschätzt wird. Eine Alternative zu  , die unterschiedliche Faktorladungen explizit berücksichtigt, ist die kongenerische Reliabilität ( ), welche traditionell auch als „composite reliability“ bezeichnet wurde, einem Begriff, der zuletzt jedoch kritisiert wurde.[2]

Siehe auch

Bearbeiten

Literatur

Bearbeiten
Bearbeiten
  • Berechnung in der SPSS-Syntax
  • Das freie Webinterface und R-Paket cocron erlaubt den statistischen Vergleich von zwei oder mehr abhängigen und unabhängigen cronbachschen Alphas.
  • Handbook of Management Scales (englisch) von Wikibooks sammelt betriebswirtschaftliche Konstrukte, deren Indikatoren und gibt das cronbachsche Alpha an.
  • RelCalc. Tools zur Berechnung der tauäquivalenten und kongenerischen Reliabilität sowie anderer Koeffizienten.

Einzelnachweise

Bearbeiten
  1. a b Jose M. Cortina: What is Coefficient Alpha? Examination of Theory and Applications. (PDF; 1,2 MB) In: Journal of Applied Psychology, 78(1), 1993, S. 98–104, doi:10.1037/0021-9010.78.1.98.
  2. a b c d Cho. 2016, doi:10.1177/1094428116656239
  3. Louis Guttman: A basis for analyzing test–retest reliability. In: Psychometrika. 10. Jahrgang, 1945, S. 255–282, doi:10.1007/BF02288892.
  4. Darren George, Paul Mallery: SPSS for Windows Step by Step: A Simple Guide and Reference, 11.0 Update. 4. Auflage. Allyn & Bacon, 2002, ISBN 978-0-205-37552-3, S. 231.
  5. D. L. Streiner: Starting at the beginning: An introduction to coefficient alpha and internal consistency In: Journal of Personality Assessment Ban 80, 2003, S. 99–103. doi:10.1207/S15327752JPA8001_18
  6. J. C. Nunnally: Psychometric theory (2nd ed.). McGraw-Hill, New York 1978.
  7. Guide, Ketokivi. 2015, doi:10.1016/S0272-6963(15)00056-X
  8. A. Wieland, C.F. Durach, J. Kembro, H. Treiblmaier: Statistical and judgmental criteria for scale purification. In: Supply Chain Management: An International Journal, Vol. 22, No. 4, 2017, doi:10.1108/SCM-07-2016-0230
  9. K. Schermelleh-Engel, C. S. Werner: Methoden der Reliabilitätsbestimmung. In: H. Moosbrugger, A. Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. Springer, Berlin / Heidelberg 2012, S. 119–141, doi:10.1007/978-3-642-20072-4_6
  10. comparingcronbachalphas.org