Diskussion:Validität/Archiv

Letzter Kommentar: vor 7 Jahren von Brainswiffer in Abschnitt Validität und Reliabilität

Einleitendes Beispiel

Es wäre schön, wenn gleich oben bei der allgm. Definition ein Beispiel stünde. Ich hab noch nicht so richtig begriffen, was das nun genau sein soll. --Franczeska 23:23, 4. Nov. 2006 (CET)

Neues Thema

Hallo, habs als Psych-Methoden-Experte mal gründlich Überarbeitet, insbesondere der Teil zu Interner und Externer Validität ist aber noch zu knapp. Dazu bräuchte es m.E. auch eigene Artikel wie im Englischen. --Rogmann 18:46, 15. Dez. 2007 (CET)

Formulierung prüfen

Folgender Satz aus dem Einleitungstext erscheint mir wirr: "Wird Wissenschaft als System zur Generierung und Verfeinerung von Annahmen über Ursache-Wirkungs-Zusammenhänge (Kausalmodellen) zwischen Konstrukten und Kausalmodellen verstanden, bezeichnet Validität einerseits die Gültigkeit bzw. Belastbarkeit dieser Annahmen über die Kausalzusammenhänge."

Sinnvoller erschiene mir: "...von Annahmen über Ursache-Wirkungs-Zusammenhänge zwischen Konstrukten und in Kausalmodellen verstanden..."

Schon wesentlich besser, aber immer noch unnötig verschachtelt. Ich mach mal einen Vorschlag im Artikel. -- Arno Matthias 12:50, 3. Jan. 2009 (CET)

Kriteriumsvalidität

Der Teil enthält ein paar problematische Stellen: Innere Validität = konvergente Validität = Übereinstimmungsval.; ist aber keine Kriteriumsvalidität im psychometrischen Sinne; da keine Ja/Nein Entscheidung. Rein theoretisch kann ich natürlich besoffen/nicht besoffen versuchen mit einem Fragebogen zu erfassen und getrennt den Blutalkoholspiegel messen und eine innere Valididtätsprüfung im Sinne Ja und Blutalkohol über ... machen, doch kein normal denkender Mensch würde so einen Schei* machen. Denn Test sind ja nicht zum Selbstzweck da, sondern eine Fragestellung beantworten, wenn es um eine kriteriumsorientierte Diagnostik geht.

Prognostische Val ist im Prinzip die Reliabilität des Test Mal dem der Varianzaufklärung für das Kriterium in Abhängigkeit von der Basisrate. Oder anders ausgedrückt Prognostische Validität ändert sich in Abhängigkeit von der Selektionsrate im Vier-Felder-Schema bei gleicher Basisrate. Die eigentliche prognostische Validität kann ich also nicht angeben, auch wenn das so proklamiert wird. Ich kann sie wenn nur in Abhängigkeit von Basisrate und Selektionsrate als Positive Prädiktive Power angeben.
Die äußere Val = Inhaltsvalidität

Andere Autoren sagen ja auch, Ein Test ist dann kriteriumsvalide, wenn er die Richtigen auswählt. Allerdings ist dieses ein Problem des Vier-Felder-Schemas und nicht der Testkonstruktion. (nicht signierter Beitrag von Bogeyfox (Diskussion | Beiträge) 17:25, 15. Mai 2009 (CEST))

Verbesserung Artikel

Die von mir vorgeschlagenen Verbesserungen zu dem Artikel im Bereich Kriteriumsvalidität wurden von Benutzer Brainswiffer abgelehnt und auf seinen eigenen Stand des Artikels zurückgesetzt. Folgendes Stelle ich zur Diskussion:

1. Ein Kriterium wird immer als Ja/Nein Entscheidung gesehen (Also ein dichotomes Maß).

2. Ein Kriterium wird immer künstlich festgelegt.

3. Das Kriterium für Tests wird i.d.R. als Cut-off Score bezeichnet (vgl. z.B. HCR-20).


Folgende Punkte sind unverständlich:

Von ‚innerer (Kriteriums)validität‘ wird dabei dann gesprochen, wenn als Kriterium ein anderer, als valide anerkannter Test herangezogen wird. ??!!?? Wird also das Ergebnis mit dem anderen Test korreliert? ==> Konvergente Validität bzw. Konstruktvalidität?? Wohl kaum Kriteriumsvalidität.

Konkurrente/Übereinstimmungsvalidität (concurrent validity): Messung und Erhebung des Außenkriteriums (etwa ein anderer Test) werden zeitgleich durchgeführt. Das Vorgehen zur Ermittlung der konvergenten und diskriminanten Testvalidität sind Spezialfälle dieser Kategorie. Also concurrent validity ist was? Die Korrelation des Tests mit einem anderen??? s.o. ==> Nicht Kriteriumsvalidität.

(zum Beispiel kann im Rahmen eines Assessment-Centers eine Prognose für beruflichen Erfolg gestellt werden). Bezug auf?? Die Prognostische Validität kann ich nur in Abhängigkeit von Basisrate und Selektionsrate bestimmen. Für ACs schwankt sie zw. .16 und .45 und darüber hinaus. Das als Beispiel zu verwenden suggeriert, dass ich eine tatsächliche Prog. Val. für ein Testverfahren angeben kann. S.o. ist eher ein Problem des Vier-Felder-Schema... Bsp. sollte also gestrichen werden.

--Bogeyfox 23:14, 17. Mai 2009 (CEST)

<quetsch> Mich störte eigentlich nur, dass die beispiele entferntworden sind, an denen ein Laie wenigsstens noch in etwa nachvollziehen kann, worum es da geht --Brainswiffer 14:13, 20. Mai 2009 (CEST)


Einige Gedanken hierzu, die man sicherlich noch mit Quellen belegen müsste:

zu 1. Häufig sind sowohl das Außenkriterum, als auch der zu validierende Test mehrstufig. In der Regel nimmt man auch bei beiden eine Intervallskala an. Ob Schulnoten intervallskaliert oder hyperordinal sind ist umstritten. Deshalb findet man meistens eine Produkt-Moment-Korrelation, die als Kriteriumsvalidtät angegeben wird. Man kann Produkt-Moment-Korrelationen allerdings auch auf dichotome (zweistufige) Merkmale anwenden. Dichotome Merkmale kann man als intervallskaliert betrachten.

zu 2. Ein Außenkriterum wird immer aufgrund theoretischer Überlegungen festgelegt, die teilweise schon in der Definition des Konstrukts des zu validierenden Tests festgelegt sind. Das mag willkürlich und künstlich wirken. In der Regel entstehen Theorien auch wiederum aufgrund von Lebenserfahrungen, also empierischen Wahrnehmungen, die eventuell nur noch nicht statistisch erfasst sind.

zu 3. Wenn eines der beiden Maße dichotom ist und das andere Maß, kontinuierlich intervallskaliert, müsste man, wenn man sie eineindeutig aufeinander beziehen will einen sogenannten Cut-off-Wert festlegen, um das kontinuierliche Maß künstlich in dichotomes zu verwandeln. Man hätte dann ein deterministisches Vorhersagemodell, z. B. unter einem bestimmten IQ besteht man den Führerscheintest mit abslouter Sicherheit nicht, über diesem IQ besteht man mit Sicherheit. Würde man das nicht tun, könnte man mit einer logistischen Regression arbeiten, um das dichotome Merkmal durch das kontinuierlich intervallskalierte vorherzusagen. Das würde einem propabilistischen Modell entsprechen, da man davon ausgeht dass man von dem intervallskalierten Merkmal nicht abslouter mit Sicherheit, sondern nur mit unterschiedlicher Wahrscheinlichkeit auf das Kriterum schließen kann. Zur Kriteriumsvalidierung an sich müsste man nicht zwangläufig eine künstliche Dichotomisierung (Gruppenbindlung in zwei Gruppen) vornehmnen, da man ja auch Korellationen zwischen einer dichotomen und einer intervallskalierten Variable berechnen kann. Wie gesagt kann man dichotome Variablen auch als intervallskaliert betrachten.-- Christian Stroppel 14:05, 20. Mai 2009 (CEST)

Danke für die Anmerkungen. Habe mich nochmal mit mehreren Standardbüchern auseinandergesetzt und einen interessanten Bruch bei der Erklärung der Kriteriumsvalidität gefunden. Werden diesen in Kürze hier zur Diskussion stellen. Nur kurz noch zu den Anmerkungen von Christian Stroppel: zu 1. Habe niemals von einem Außenkriterium sondern von Kriterium gesprochen (Prämisse: Kriterium ist dichotom. Antwort: Häufig ist ein Außenkriterium mehrstufig...) ...; zu 2. s. 1.; zu 3. ?? bzw. Vier-Felder-Schema (beide dichotom), vgl. 1. oder anders Äpfel und Birnen sind Äpfel und Birnen und niemals Birpfeln. Artikel/Diskussion bezieht sich nicht auf die Validierung von Tests! --Bogeyfox 23:51, 26. Mai 2009 (CEST)


Das Kreuz mit der Kriteriumsvalidität:

Ich möchte hier nur einige der unterschiedlichen Auffassungen zur Kriteriumsvalidität, bzw. der Validitäten allgemein, wiedergeben.

In Fisseni (2004), S. 63: nach Michel und Conrad (1982, S. 55)

„Ein Korrelationsschluss liegt vor, wenn ein empirischer Zusammenhang nachgewiesen wird zwischen dem „Verhalten in der Testsituation“ und dem „Verhalten außerhalb der Testsituation“, das seinerseits repräsentiert wird durch ein sogenanntes Kriterium. Daher die Benennung kriteriumsbezogene Validität!“
S.66:
Kriteriumsbezogene Validität wird ermittelt durch den Vergleich von Test- und Kriterien-Scores. … (rtc)

Übereinstimmungsvalidität: Gleichzeitig Kriteriumsscore und Testscore, z.B. CFT mit IST Schluss von Kriteriumsinhalt auf Testinhalt

S.67 Vorhersagevalidität: Bedeutung des Testverhaltens und des Kriteriumsverhaltens sind „unabhängig“ bzw. deren Inhalt.

S.68 Konstruktvalidität: Übereinstimmung zw. Testscore und einen Netz anderer Scores oder andere Aussagen. „Konstruktvalidität schließt inhaltliche und kriteriumsbezogene Validität ein.“


Definitorische Problematik: Wie kann Konstruktvalidität sowohl inhaltliche als auch nicht inhaltlich Schlussfolgerungen zulassen? Welche Aussage lässt sich daraus ableiten? Dass Konstruktvalidität nicht unabhängig von inhaltlicher Validität zu sehen ist. Letztendlich also ein definitorischer Schluss von Experten ist? Auch die Aussage von Vorhersagevalidität sei inhaltlich unabhängig vom Kriterium, wirft die Frage auf, was ich dann letztendlich Messe? Denn wenn kein inhaltlicher Zusammenhang besteht, wie kann dann ein korrelativer Zusammenhang bestehen, außer ich Messe eine Drittvariable, die inhaltlich mit dem Kriterium in Verbindung steht? Besteht der Unterschied zw. Übereinstimmungs- und Vorhersagevalidität außer in der zeitliche Dimension darin, dass ich einmal sicher bin, keine Drittvariable zu messen und das andere Mal weiß ich es nicht?

Folgt man Schott (S.226 ff) in Jäger und Petermann (1999), so ist kriteriumsorientierte Diagnostik der normorientierten Diagnostik gegenüberzustellen. Kriteriumsorientierte Diagnostik ist demnach eine Klassifikation hinsichtlich „Können“ vs. „Nicht-Können“. Oder einfacher ausgedrückt hinsichtlich Merkmalsträger vs. Nicht-Merkmalsträger. Der wesentliche Unterschied ist, dass keine Normwerte sondern Kriteriumswerte verglichen werden, die durch eine künstliche Zuteilung geschaffen werden. Die Einteilung hinsichtlich Dyskalkulie oder auch Minderintelligenz stellt eine solche Einteilung dar. Hierbei entscheidend ist die Abweichung vom Mittel der Skala. Dabei ist egal ob die Person Null oder 1,1 SDs abweicht. Entscheidend ist ob die Person zwei oder mehr SDs nach unten abweicht.

Da Fisseni hier nur unscharf von einem Kriterium redet, dieses aber in seinen Beispielen nicht dichotom verteilt sein muss, sondern letztlich der Score eines anderen Tests oder eine Expertenrating ist, unterscheidet sich hier die theoretische Überlegung von der praktischen Anwendung nach Schott.

Gänzlich anders als in Fisseni beschreibt Tent und Stelzl (1993) Kriteriumsvalidität und Konstruktvalidität. Die Inhaltsvalidität wird in beiden Büchern gleich beschrieben. Allerdings sehen Tent unf Stelzl die inhaltliche Validität unabhängig von der Konstruktvalidität (S. 50). Hier wird Praxisübereinstimmung der Inhalte von dem wahren Inhalt des Konstrukts getrennt, welches u.U. mehr Facetten enthält als in den Aufgaben hinreichend repräsentiert werden kann. Die Konstruktvalidität kann nach diesen Autoren über die Übereinstimmungsvalidität sowie über die diskriminante Validität hergestellt werden. Dies entspricht der Übereinstimmung oder Nicht-Übereinstimmung von Testscores bei Fisseni, der Unterschied besteht darin, dass Fisseni bzw. Michel und Conrad, dieses als Teil der Kriteriumsvalidität sehen, die Teil der Konstruktvalidität ist. Unter Konstruktvalidität führen Tent und Stelzl die Prognostische Validität an und damit die Frage nach dem Einsatz eines Verfahrens in der diagnostischen Praxis. Korreliert die Vorhersage aus dem Test mit einem späteren Bewährungskriterium. Die Folgen dieser Kriteriumseinteilung werden theoretisch in einem 4-Felder-Schema verdeutlicht. Hier sollte eigentlich auch die prognostische Validität eingeordnet werden, die der Positiven-Prädiktiven-Power zuzuordnen ist.

Die unscharfe Formulierung der einzelnen Validitäten kann sehr einfach präzisiert werden, wenn Kriteriumsvalidität sich auf dichotome Einteilung hinsichtlich Merkmalsträger vs. Nicht beschränkt. Dies kann insbesondere für Tests, die Störungen diagnostizieren möchten, von entscheidender Bedeutung sein. Oder auch im Bereich von Tests, die Cut-Off-Scores zur Bestimmung einer Merkmals empfehlen (z.B. HCR-20).

Logisch nachvollziehbar und auch sinnvoll erscheint die Einteilung hinsichtlich Expertenebene (inhaltliche Validität), theoretische Ebene (Konstruktvalidität) und praktischer Ebene (Kriteriumsvalidität). Auch erscheint es damit sinnvoll, Kriteriumsvalidität und Inhaltsvalidität nicht als Teil der Konstruktvalidität zu sehen, wie es Fisseni postuliert. Denn letztlich kann ein Test für die Praxis geeignet sein, um ein Kriterium vorherzusagen, obwohl der Test nicht konstruktvalide ist. Als Beispiel sei hier Schulerfolg (Kriterium Gymnasium bestehen) und ein nicht sprachfreier Intelligenztest bei der Anwendung von Kindern mit Migrationshintergrund genannt. Letztlich wird hier das Konstrukt der Intelligenz nur zum Teil gemessen, da ein Großteil des Scores auf z.B. Sprachfähigkeit zurückgeht. Letztlich ist Sprachfähigkeit in der Schule aber Voraussetzung, um das Gymnasium zu bestehen. Damit ist der Test für das Kriterium geeignet. Inhaltlich messe ich aber nicht mehr Intelligenz, sondern im wesentlichen Sprachfähigkeit.

Fisseni, H.J. (2004). Lehrbuch der Psychologischen Diagnostik. Göttingen: Hogrefe.

Jäger, R.S., Petermann, F. (1999). Psychologische Diagnostik. Weinheim: Beltz.

Tent, L., Stelzl, I. (1993). Pädagogisch-psychologische Diagnostik. Göttingen: Hogrefe.


--Bogeyfox 13:47, 30. Jul. 2009 (CEST)

Abschnitte auslagern

Dieser Artikel ist zu einem unschönen Sammelartikel geworden. Oben haben bereits andere Kommentare darauf hingewiesen, dass es besser ist, die Einzelabschnitte in eigene Artikel auszulagern. Ich habe bereits damit angefangen, indem ich neue Artikel Konvergenzvalidität und Diskriminanzvalidität begonnen habe. Auf dieser Seite hier hingegen sollte nur allgemein und ohne auf die einzelnen Arten der Validität einzugehen, der Begriff Validität beschrieben werden. Das muss kein langer Artikel sein, da man sowieso bei Wikipedia selten einen Roman sucht, sondern eher eine schnelle Erklärung. Da sind gut vernetzte Artikel viel besser als ein langer. 92.225.141.41 12:26, 26. Sep. 2010 (CEST)

Interne und externe Validität

Der Artikel war bisher etwas einseitig was die Erläutern interner und externe Validität angeht. Die induktivistische Logik dieser Konzeption ist bisher nicht hervorgehoben worden. Dass die künstliche Trennung von interner und externer Validität aus einer deduktivistischen Perspektive keinen Sinn macht, fehlte. Das habe ich geändert. -- 134.155.60.36 13:41, 20. Okt. 2010 (CEST)

Intelligenztest als Beispiel

Als Standardbeispiel den Intelligenztest heranzuziehen ist denkbar ungünstig. Dies weniger, weil seine Validität angezweifelt werden kann. Definiert man (die zu messende) Intelligenz als das, was mit einem konkreten Test gemessen wird (sic), wie es in der Psychologie üblich ist, ist Validität zwangsläufig gegeben. Diese bezieht sich dann eben auf jenen Teil der kognitiven Funktion, der mit diesem Test abgebildet wird.

Hingegen kann gerade die Objektivität angezweifelt werden, da die Verfügbarkeit von kognitiven Fähigkeiten und die Reproduktion von Wissen elementar von limbischen und intersubjektiven sozialen Faktoren beeinflusst ist. Besonders bei Menschen mit einer breiten Begabung, die somit auch ein ausgereiftes Spiegelsystem besitzen, kann der Tester das Resultat stark beeinflussen; bei Psychopathen wäre der Tester eine neutrale Größe.

Genauso kann Reliabilität angezweifelt werden, da die Widerholung eines Intelligenztests gewöhnlich zu einer Verbesserung des Ergebnisses über sukzessive erlernte Fertigkeiten und, falls die Wissensfragen nicht vollständig ausgetauscht werden, erworbenes Wissen führt.

Besser wäre es Beispiele anzugeben, die nicht aus dem sozialwissenschaftlichen Bereich stammen.

Objektivität wäre z.B. bei einem Zeigermessinstrument, das einen Parallaxenfehler aufweist, nur bedingt gegeben; eine Spiegelskala oder eine Digitalanzeige bieten hiervor Schutz.

Allgemein bei Millivoltmetern und besonders im Wechselspannungsbereich ist die Validität niedrig, da sie die elektromagnetische Strahlung aus der Umwelt mitmessen. Höhere Validität bietet ein abgeschirmtes Millivoltmeter und abgeschirmte Messleitungen, da es die tatsächliche Messgröße selektiver repräsentiert. Ebenso bietet die Vierdraht-Methode bei Milliohmmessungen höhere Validität, da sie den zu messenden Widerstand deutlich weniger verfälscht, also wieder die zu messende Größe besser repräsentiert; Dies ist kein Reliabilitätsfaktor, da die Messung gleich bleibend falsch ist.

Höher Reliabilität bietet ein temperaturkompensiertes Ampermeter für Gleichströme oder ein Zangenamperemeter für Wechselströme, da es die unvermeidliche Erwärmung (W=I*U*t) durch hohe Ströme (der Spannungsbereich am Messwiderstand ist stets gleich) ausgleicht bzw. umgeht und so einen gleichbleibenden Wert für konstante Messgrößen liefert. (nicht signierter Beitrag von 79.249.190.30 (Diskussion) 10:25, 17. Aug. 2011 (CEST))

Abgrenzungen

Die einzelnen Arten der Valitidtät sollten in der Gestaltung und im Inhalt abgegrenzt werden. Denn die Interne und die Externe Validität bezieht sich hauptsächlich auf die "saubere" Durchführung eines Experimentes.

Die ganzen anderen Validitäten beziehen sich hingegen auf die Konstruktion von Tests / Messinstrumenten.

Außerdem fehlt noch die Inhalts- bzw. Kontentvalidität, die ja gerade bei Kriteriumsorientiertem Testen eine große Rolle spielt.

--StroopTester 21:35, 23. Nov. 2005 (CET)

Interne Validität

Der Satz zu diesem Stichpunkt ist absolut nicht zu verstehen. Lieber in zwei Sätze oder gleich einen eigenen Artikel auslagern. (nicht signierter Beitrag von 85.181.5.32 (Diskussion) 14:34, 10. Nov. 2008 (CET))

Schreibweise im Deutschen: .80 oder 0,8?

Die Diskussion findet ihr hier:Diskussion:Reliabilität#.08_versus_0.2C8 --Christian Stroppel 11:32, 31. Jul. 2009 (CEST)

Validität und Reliabilität

Hier werden Reliabilität und Validität verwechselt. Laut Bortz (S. 10) kennzeichnet die Reliatilität „die Genauigkeit bzw. Zuverlässigkeit der erhobenen Daten“. Ähnlich heißt es bei Fisseni (S. 49): „Reliabilität gilt als Messgenauigkeit (Hervorhebung im Original) des Instruments unter Absehung vom Inhalt.“ Das heißt, Daten können reliabel sein, auch wenn sie nicht valide sind. Zur Validität sagt Bortz (S. 8): „Eine Untersuchung ist extern valide, wenn ihr Ergebnis ... generalisierbar ist“. Fisseni (S. 63) unterscheidet dabei zwischen Repräsentationsschluss (Testverhalten ist repräsentativ für Gesamtverhalten) und Korrelationsschluss (Verhalten im Test korreliert mit Verhalten außerhalb der Testisituation). Als Definition (S 62): „Validität ... ist die inhaltliche Übereinstimmung einer empirischen Messung mit einem logischen Messkonzept“. --Wolberg77 (Diskussion)

Glaub mir, hier wird nichts verwechselt :-) Reliabilität ist die Zuverlässigkeit und Validität die Gültigkeit, wenn sie schon auf deutsch übersetzt werden. "Genauigkeit" ist so ein Begriff dazwischen (der wohl eher auf die Messgenauigkeit hin überall verwendet wird) - und man kann aber Genauigkeit bei Validität nicht durch Zuverlässigkeit ersetzten, wie es eine IP tat - weil das eben der für die Reliabilität reservierte Begriff ist. In unserer Bibel: Reliabilität BZW. Validität Brainswiffer (Disk) 07:23, 27. Apr. 2017 (CEST)
Deine neue Änderung vorn ist nicht falsch - nur eben für WP:OMA etwas kompliziert :-) Brainswiffer (Disk) 07:26, 27. Apr. 2017 (CEST)
So wie es jetzt geschrieben steht, dürfte es der herrschenden Terminologie entsprechen. Allerdings wird im Duden als Synonym für Validität auch Zuverlässigkeit genannt. Zumindest umgangssprachlich dürften keine genauen Grenzen bestehen.
--Karl-Hagemann (Diskussion) 22:21, 7. Jul. 2017 (CEST)

Die Aussage "Allgemein ist dies der Grad an Genauigkeit, mit der dasjenige Merkmal tatsächlich gemessen wird, das gemessen werden soll." aus dem Dorsch ist eindeutig falsch. Außerdem handelt es sich hier um Werbung. Bitte nichtkommerzielle Quellen verwenden. Davon gibt es schließlich genug.(nicht signierter Beitrag von 217.79.214.194 (Diskussion) 16:45 Uhr, 7. September 2017 (CEST))

Wo steht das ? (Wikipedia:Belege). Grüße, Victor Schmidt Was auf dem Herzen? 16:52, 7. Sep. 2017 (CEST)
<bk> musst signieren, damit man das neue sieht. Warum soll das denn falsch sein? Lienert war quasi der Erfinder der testkonstruktion. Man kann den direkt zitieren, nur ist beim Dorsch ein Zugriff pro Tag frei. Deshalb wird der hier gern genommen. Brainswiffer (Disk) 16:53, 7. Sep. 2017 (CEST)
nicht nur in der Psychologie übrigens Brainswiffer (Disk) 16:56, 7. Sep. 2017 (CEST)