Probabilistische Testtheorie

Die Probabilistische Testtheorie (Item Response Theory, auch engl. latent trait theory, strong true score theory oder modern mental test theory) untersucht, wie man aus zugrundeliegenden manifesten kategorialen Daten (z. B. den Antworten auf Testitems) auf zugrundeliegende latente Variablen (z. B. Persönlichkeitseigenschaften der Probanden) zurückschließen kann. Das Wort „probabilistisch“ leitet sich dabei aus der stochastischen Beziehung zwischen dem Antwortverhalten der Probanden auf ein Item (Test) und der latenten Variable ab.

Dieser Artikel wurde auf der Qualitätssicherungsseite des Wikiprojekts Psychologie eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Psychologie zu verbessern. Dabei werden Artikel verbessert oder auch zur Löschung vorgeschlagen, wenn sie nicht den Kriterien der Wikipedia entsprechen. Hilf mit bei der Verbesserung und beteilige dich an der Diskussion im Projekt Psychologie.

Je nachdem, ob die latente Eigenschaft als metrische (z. B. Intelligenz) oder als kategoriale Variable (z. B. klinische Syndrome) konzipiert wird, unterscheidet man zwischen den hier beschriebenen Latent-Trait und Latent-Class-Modellen (siehe auch Latentes Variablenmodell).

Voraussetzungen

Für die meisten der folgenden Modelle müssen zwei wesentliche Voraussetzungen gemacht werden:

Eindimensionalität:
Es gibt genau eine latente Variable, die das Antwortverhalten bei einem Item bestimmt. Es gibt also keine weiteren latenten Variablen, die einen systematischen Einfluss ausüben. Diese Voraussetzung kann z. B. mit einer geeigneten konfirmatorischen Faktorenanalyse der Items untersucht werden.
Lokale stochastische Unabhängigkeit:
Für einen gegebenen Wert der latenten Variable lässt sich die Antwortwahrscheinlichkeit für mehrere Items als Produkt der Antwortwahrscheinlichkeiten der Einzelitems zerlegen. Dies bedeutet, dass die Korrelation zwischen den Items einzig durch die latente Variable bestimmt ist und es keine anderen systematischen Einflussgrößen gibt. Testaufgaben, die aufeinander aufbauen, verletzen diese Annahme – in dem Fall sollten andere Modelle, z. B. Testlet-Modelle, benutzt werden.^[1]

Rasch-Modell

Das wohl bekannteste und mathematisch-statistisch am besten fundierte Latent-Trait-Modell ist das auf Georg Rasch zurückgehende Rasch-Modell, das die Wahrscheinlichkeitsdichte der Antwortvariablen als logistische Funktion zweier Parameter modelliert, von denen einer die zugrundeliegende Fähigkeit der Probanden und der andere die Schwierigkeit der Items misst. Diese Modellannahme hat eine Reihe von Konsequenzen, die das Rasch-Modell in pragmatischer, statistischer und wissenschaftstheoretischer Hinsicht gegenüber allen anderen Latent-Trait-Modellen auszeichnen:

Das Rasch-Modell ist notwendig und hinreichend dafür, dass die gesamte Information über die latente Personenvariable in den Summenscores der Probanden enthalten ist; es ist notwendig und hinreichend für die Schätzung der Modellparameter mittels der bedingten (conditional) Maximum-Likelihood-Methode; und es ist notwendig und hinreichend für die wechselseitige Unabhängigkeit (spezifische Objektivität) der Vergleiche zwischen Messobjekten (Probanden) und Messinstrumenten (Items): Die Aussagen, welche über die Relationen zwischen n = 1,2,3… Probanden gewonnen werden, sind davon unabhängig, welche Items ausgewählt und dem Vergleich zugrunde gelegt wurden. Umgekehrt sind die Aussagen, welche über die Relation zwischen k = 1,2,3… Items gewonnen werden, unabhängig davon, anhand welcher Personenstichprobe sie gewonnen wurden.

Sind die Modellannahmen des Rasch-Modells verletzt, so ist die Verwendung des Summenscores mit einem Informationsverlust verbunden, der so weit gehen kann, dass die in den Antworten der Probanden enthaltene diagnostisch relevante Information gänzlich verloren geht. Statt auf die Scores muss die diagnostische Entscheidung dann auf die Antwortmuster der Probanden gegründet werden. Dies leistet die auf Paul Lazarsfeld zurückgehende Latent-Class-Analyse, mittels derer typische Antwortmuster identifiziert und die Probanden danach klassifiziert werden, welchem dieser Typen ihr Antwortverhalten am besten entspricht. Namentlich in der Einstellungsmessung, wo schon geringfügige semantische Variationen der Itemformulierung völlig andere Reaktionstendenzen der Probanden auslösen können, hat sich diese Vorgehensweise gegenüber der immer noch gebräuchlichen Scorebildung als deutlich leistungsfähiger erwiesen.

In Reaktion auf Siegfried Kracauers Kritik, wonach es nicht so sehr die Häufigkeit bestimmter Textmerkmale ist, welche die Bedeutung eines Textes ausmachen, als die Muster, welche sie bilden, hat die Latent-Class-Analyse über die psychologische Diagnostik hinaus auch in der quantitativen Inhaltsanalyse ein wichtiges Anwendungsgebiet gefunden.

Literatur

S. Embretson, S. Reise: Item response theory for psychologists. Erlbaum, Mahwah NJ 2000.
G. H. Fischer: Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen. Huber, Bern [u. a.] 1974.
F. Gernot: Probabilistische Testmodelle in der Persönlichkeitsdiagnostik. Lang, Frankfurt am Main [u. a.] 1993.
D. Heyer: Booleschwertige und probabilistische Meßtheorie: Methoden der Fehlerbehandlung in psychophysikalischen Theorien. Lang, Frankfurt am Main [u. a.] 1990.
W. Kempf: Forschungsmethoden der Psychologie. Band II. Quantität und Qualität. regener, Berlin 2008.
W. Kempf, R. Langeheine: Item-Response-Modelle in der sozialwissenschaftlichen Forschung. regener, Berlin 2012.
P. F. Lazarsfeld, N. W. Henry: Latent structure analysis. Houghton Mifflin, Boston 1968.
D. Lind: Probabilistische Testmodelle in der empirischen Pädagogik. BI-Wiss.-Verlag, Mannheim [u. a.] 1994.
F. M. Lord: Applications of item response theory to practical testing problems. Erlbaum, Mahwah NJ 1980.
H. Müller: Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Huber, Bern 1999.
G. Rasch: Probabilistic models for some intelligence and attainment tests. Danish Institute for Educational Research, Copenhagen 1960; expanded edition with foreword and afterword by B.D. Wright. The University of Chicago Press, Chicago 1980
J. Rost: Lehrbuch Testtheorie – Testkonstruktion. Huber, Bern [u. a.] 1996; 2., vollst. überarb. und erw. Auflage 2004.
R. Steyer, M. Eid: Messen und Testen. Springer, Berlin 2001 [Kap. 16–18]
I. Koller, R. Alexandrowicz, R. Hatzinger: Das Rasch-Modell in der Praxis: eine Einführung mit eRm. (= UTB; Bd. 3786). Facultas/WUV, Wien 2012, ISBN 978-3-8252-3786-8.

Siehe auch

Weblinks

D. Lind: Modelle zur Leistungsbewertung (PDF; 548 kB) Vorlesungsskript
Ivailo Partchev: A visual guide to item response theory. (PDF; 515 kB)

Einzelnachweise

↑ Howard Wainer, Eric T. Bradlow, Xiaohui Wang: Testlet Response Theory and Its Applications. Cambridge University Press, 2007, ISBN 978-0-521-68126-1.

[1] Howard Wainer, Eric T. Bradlow, Xiaohui Wang: Testlet Response Theory and Its Applications. Cambridge University Press, 2007, ISBN 978-0-521-68126-1.

[1]