Item-Response-Theorie

Die Item-Response-Theorie (IRT; früher, aber unpräzise auch als „probabilistische“^[1] oder „moderne“^[2] Testtheorie bezeichnet) ist ein Teilgebiet der psychologischen Testtheorie und dabei der „latent trait theory“ zuzuordnen (latent von [lat.] latere = verborgen sein, trait [engl.] = Eigenschaft) und diese wiederum der Psychometrie. Die zugehörigen mathematisch-statistischen Modelle „modellieren“ (erklären) das Zustandekommen der Antwort einer Testperson auf eine (Test-)Aufgabe („Item“) in einem psychologischen Test. Dabei liegt die Annahme zugrunde, dass dem beobachtbaren, also manifesten Verhalten (Antwort) einer Person eine nicht beobachtbare, also latente Eigenschaftsausprägung zugrunde liegt. Erstere steht mit letzterer in bestimmtem wahrscheinlichkeitsfunktionalen Zusammenhang; auch die „Charakteristik“ (insbesondere die Schwierigkeit) der jeweiligen Aufgabe fließt in diese Funktion ein. Der Funktionstyp ist dabei zumeist von logistischer Art.

Dieser Artikel wurde auf der Qualitätssicherungsseite des Wikiprojekts Psychologie eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Psychologie zu verbessern. Dabei werden Artikel verbessert oder auch zur Löschung vorgeschlagen, wenn sie nicht den Kriterien der Wikipedia entsprechen. Hilf mit bei der Verbesserung und beteilige dich an der Diskussion im Projekt Psychologie.

Im Fall, dass nur zwischen zwei Antwortmöglichkeiten unterschieden wird (richtig = 1 oder falsch = 0), gibt es folgendes recht allgemeine Modell (sog. 3-PL Modell, weil es drei sog. Item-Parameter enthält - L für logistic) – es beschreibt die Wahrscheinlichkeit, dass Person v Aufgabe i löst, in Abhängigkeit vom Fähigkeitsparameter ξv, das ist das (wahre) Fähigkeitsausmaß von Person v, sowie von drei sog. Itemparametern, und zwar σi, das ist der (wahre) Schwierigkeitsgrad von Aufgabe i, αi, das ist die Diskriminationsstärke von Aufgabe i (zwischen unterschiedlichen Fähigkeitsausmaßen), und βi, das ist das Erfolgsausmaß beim Versuch des Lösungerratens:

P(x_{vi}=1)=1-P(x_{vi}=0)={\frac {\beta _{i}+\exp(\alpha _{i}(\xi _{v}-\sigma _{i}))}{1+\exp(\alpha _{i}(\xi _{v}-\sigma _{i}))}}

^[3]

Postuliert man für alle Aufgaben den „Rateparameter“ βi = 0, so vereinfacht sich das 3-PL zum 2-PL Modell, welches notwendigerweise gelten muss, wenn die Testleistungen in einem Test als gewichtete Summe der gelösten Aufgaben verrechnet werden sollen; dabei müssen die Gewichte den „Diskriminationsparametern“ αi entsprechen.

Postuliert man anstatt für alle Aufgaben βi = 0 für alle Aufgaben den Diskriminationsparameter αi = 1, vereinfacht sich das 3-PL Modell zum sog. Difficulty plus Guessing-PL Modell.

Postuliert man für alle Aufgaben den Rateparameter βi = 0 und gleichzeitig den Diskriminationsparameter αi = 1, so vereinfacht sich das 3-PL zum 1-PL Modell (sog. Rasch-Modell).

Alle diese Modelle setzen voraus, dass – vom Zufall abgesehen – bei der Bearbeitung jeder Aufgabe eines bestimmetn Tests eine einzige (Eigenschafts-/) Fähigkeitsdimension über den Erfolg entscheidet. Und sie setzen voraus, dass die Lösungswahrscheinlichkeit einer Aufgabe unabhängig davon ist, welche anderen Aufgaben die Testperson bereits gelöst hat bzw. noch lösen wird: Lernprozesse während der Testbearbeitung werden ausgeschlossen bzw. wird davon ausgegangen, dass die einzelnen Aufgaben nicht aufeinander aufbauen, indem die Lösung einer Aufgabe die Lösung bei einer vorausgehenden Aufgabe voraussetzt (sog. lokale stochastische Unabhängigkeit der Antworten).

Zu unterscheiden ist zwischen Modellen, die „spezifisch objektive Vergleiche“ ermöglichen, und solchen, die das nicht tun. Vereinfacht bedeutet das, dass für den Vergleich beliebiger Objekte (Aufgaben bzw. Personen) jeweils nur spezifisch diejenige Information der Daten eingeht, welche dafür auch relevant ist, und nicht auch Daten von nicht involvierten Objekten (Aufgaben bzw. Personen)^[4]. Erlaubt ein Modell „spezifisch objektive Vergleiche“, dann ist seine Gültigkeit für den Pool interessierender Aufgaben empirisch-inferenzstatistisch mit Hilfe eines Modelltests zu prüfen; dem gegenüber ist bei anderen Modellen nur die Feststellung der Güte der Passung von Daten an das Modell möglich (u. zw. mittels sog. goodness-of-fit Indizes).

In diesem Zusammenhang nimmt das Rasch-Modell eine wissenschaftstheoretisch beachtenswerte Ausnahmestellung ein: Es gibt nicht nur etliche Modelltests^[5]^[6]^[7], sondern es existiert auch ein „Notwendigkeitsbeweis“^[8]: Wenn als Testwert eines psychologischen Tests die Anzahl gelöster Aufgaben verwendet wird, dann ist die Geltung des Rasch-Modells für den betreffenden Aufgabenpool notwendig. D.h., verwendet ein psychologischer Test diesen Verrechnungsmodus, seine Aufgaben entsprechen aber nicht alle dem Rasch-Modell, so bildet er die empirisch beobachtbaren Verhaltensrelationen (innerhalb einer Person sowie) zwischen verschiedenen Personen nicht adäquat ab; so kann es z. B. vorkommen, dass dann grundsätzlich leistungsstärkere Personen gegenüber grundsätzlich leistungsschwächeren bei einer bestimmten Aufgabe systematisch schlechter abschneiden^[9].

Demgegenüber gibt es Modelle der Item-Response-Theorie, deren Geltung lediglich hinreichend für einen bestimmten Verrechnungsmodus der Testleistungen zu einem Testwert ist, um letzteren empirische Angemessenheit betreffs beobachtbarer Verhaltensrelationen zu attestieren.

Im Fall, dass zwischen mehr als zwei Antwortmöglichkeiten unterschieden wird (z. B. vollständig richtig, teilrichtig und falsch), kommen verschiedene Verallgemeinerungen des Rasch-Modells in Frage, insbesondere das sog. Partial-Credit-Modell (von Masters). Für den Fall besonders vieler, also sehr fein abgestufter Antwortmöglichkeiten gibt es das sog. kontinuierliche Rasch-Modell (von Müller). Für beide ist ihre Geltung hinreichend, um den zugrunde liegenden Verrechnungsmodus als empirisch angemessen zu qualifizieren.

Alle genannten Modelle eigenen sich für adaptives Testen, bei dem der Testperson nicht alle Aufgaben, sondern nur diejenigen gestellt werden, die ihrem Leistungsniveau entsprechen.

Zum Rasch-Modell gibt es vielfache Verallgemeinerungen^[10], auch solche zu mehrdimensionalen Fähigkeiten^[11]; in der Praxis der Konstruktion psychologischer Tests finden sich dabei vor allem Anwendungen des sog. Linearen Logistischen Test-Modells (von Fischer, LLTM)^[12]^[13].

Literatur

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Ne York: Taylor & Francis, ISBN 978-1-4106-0526-9.
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen. Bern: Huber.
Kubinger, K. D. (1989). Aktueller Stand und kritische Würdigung der Probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen (S. 19–83), (2. Aufl.). München: Psychologie Verlags Union, ISBN 3-407-86160-5.
Müller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber, ISBN 3-456-82645-1.
Rasch, G. (1960/1980). Probabilistic models for some intelligence and attainment tests. Chicago: University of Chicago Press.
Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion(2., vollst. überarb. und erw. Aufl.). Bern: Huber, ISBN 3-456-83964-2.
Koller, I., Alexandrowicz, R. & Hatzinger, R. (2012). Das Rasch-Modell in der Praxis: eine Einführung mit eRm. (= UTB; Bd. 3786). Wien: Facultas/WUV, ISBN 978-3-8252-3786-8.

Siehe auch

Testtheorie (Psychologie)

Einzelnachweise

↑ Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
↑ Kubinger, K. D. (Hrsg.)(1989). Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen. (2., verb. Aufl.). München: Psychologie Verlags Union.
↑ Kubinger, K. D. (2021). Item-Response-Theorie (IRT). In M. A. Wirtz (Hrsg.), Dorsch – Lexikon der Psychologie, 20. Aufl. (S. 918–920). Bern: Hogrefe.
↑ Scheiblechner, H. H. (2009). Rasch and pseudo-Rasch models: suitableness for practical test applications. Psychology Science Quarterly, 51, 181–194.
↑ Kubinger, K. D. (1989). Aktueller Stand und kritische Würdigung der Probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen (S. 19–83), (2. Aufl.). München: Psychologie Verlags Union.
↑ Glas, C. A. W., & Verhelst, N. D. (1995). Testing the Rasch Model. In G.H. Fischer & I.W. Molenaar (Eds.), Rasch models (pp. 69–95). New York: Springer.
↑ Strobl, C., Kopf, J., & Zeileis, A. (2015). Rasch Trees: A New Method for Detecting Differential Item Functioning. Psychometrika, 80, 289–316.
↑ Fischer, G. H. (1995). Derivations of the Rasch Model. In G. H. Fischer & I. W. Molenaar (Hrsg.), Rasch models (S. 15–38). New York: Springer.
↑ Kubinger, K. D. (2019). Psychologische Diagnostik – Theorie und Praxis psychologischen Diagnostizierens (3., völlig überarbeitete und aktualisierte Aufl.). Göttingen: Hogrefe, ISBN 978-3-8017-2779-6.
↑ von Davier, M. & Carstensen, C. H. (Hrsg.). Multivariate and Mixture Distribution Rasch Models. New York: Springer, ISBN 0-387-32916-1.
↑ Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multi-nomial logit model. Applied Psychological Measurement, 21, 1–23.
↑ Fischer, G.H. (2005). Linear logistic test models. In Encyclopedia of Social Measurement, 2, 505–514.
↑ Kubinger, K.D. (2008). On the revival of the Rasch model-based LLTM: From constructing tests using item gen-erating rules to measuring item administration effects. Psychology Science Quarterly, 50, 311–327.

[1] Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.

[2] Kubinger, K. D. (Hrsg.)(1989). Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen. (2., verb. Aufl.). München: Psychologie Verlags Union.

[3] Kubinger, K. D. (2021). Item-Response-Theorie (IRT). In M. A. Wirtz (Hrsg.), Dorsch – Lexikon der Psychologie, 20. Aufl. (S. 918–920). Bern: Hogrefe.

[4] Scheiblechner, H. H. (2009). Rasch and pseudo-Rasch models: suitableness for practical test applications. Psychology Science Quarterly, 51, 181–194.

[5] Kubinger, K. D. (1989). Aktueller Stand und kritische Würdigung der Probabilistischen Testtheorie. In K. D. Kubinger (Hrsg.), Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen (S. 19–83), (2. Aufl.). München: Psychologie Verlags Union.

[6] Glas, C. A. W., & Verhelst, N. D. (1995). Testing the Rasch Model. In G.H. Fischer & I.W. Molenaar (Eds.), Rasch models (pp. 69–95). New York: Springer.

[7] Strobl, C., Kopf, J., & Zeileis, A. (2015). Rasch Trees: A New Method for Detecting Differential Item Functioning. Psychometrika, 80, 289–316.

[8] Fischer, G. H. (1995). Derivations of the Rasch Model. In G. H. Fischer & I. W. Molenaar (Hrsg.), Rasch models (S. 15–38). New York: Springer.

[9] Kubinger, K. D. (2019). Psychologische Diagnostik – Theorie und Praxis psychologischen Diagnostizierens (3., völlig überarbeitete und aktualisierte Aufl.). Göttingen: Hogrefe, ISBN 978-3-8017-2779-6.

[10] von Davier, M. & Carstensen, C. H. (Hrsg.). Multivariate and Mixture Distribution Rasch Models. New York: Springer, ISBN 0-387-32916-1.

[11] Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multi-nomial logit model. Applied Psychological Measurement, 21, 1–23.

[12] Fischer, G.H. (2005). Linear logistic test models. In Encyclopedia of Social Measurement, 2, 505–514.

[13] Kubinger, K.D. (2008). On the revival of the Rasch model-based LLTM: From constructing tests using item gen-erating rules to measuring item administration effects. Psychology Science Quarterly, 50, 311–327.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]