Diskussion:p-Hacking
Quelle
BearbeitenHallo Die Quellenangabe "a b Megan L. Head: The Extent and Consequences of P-Hacking in Science. In: plosbiology. S. 1" unter "Einzelnachweise" ist ziemlich erbärmlich. Ich weiß aber nicht wie man das richtig macht. Den richtigen Link findet man unter Weblinks. Vielleicht kann das jemand ausbessern. miracle173 --16:28, 26. Mär. 2017 (CEST)
Zielscheibenfehler
BearbeitenDer Artikel scheint mit Zielscheibenfehler ("texanischer Scharfschütze") verwandt zu sein. Ich weiß nicht, wie wir damit am besten umgehen. Ist das das gleiche oder leicht verschieden? --Hob (Diskussion) 18:06, 21. Apr. 2017 (CEST)
- Ich sehe keinerlei Überschneidung mit dem genannten Artikel? Kannst du vielleicht erklären was genau du meinst? Bei diesem Artikel geht man davon aus, dass eine bereits vorformulierte Hypothese untersucht wird, wobei der p-Wert unter die 5 % Grenze gedruckt wird. Viele Grüße. --JonskiC (Diskussion) 20:06, 21. Apr. 2017 (CEST)
- Im Artikel en:Data dredging, der als englisches Pendant verlinkt ist, steht "Data dredging (also data fishing, data snooping, and p-hacking) is the use of data mining to uncover patterns in data that can be presented as statistically significant, without first devising a specific hypothesis as to the underlying causality." Geht es nicht darum, die Daten in Teilmengen aufzuteilen, um mit zusätzlichen Bedingungen die ursprüngliche Hypothese zu modifizieren? So dass Ergebnisse herauskommen wie "Frauen im Saarland zwischen 40 und 50 essen statistisch signifikant mehr Schokoladenpudding als der Durchschnitt"?
- Das entspricht dem "Texanischen Scharfschützen" en:Texas sharpshooter fallacy: The fallacy is characterized by a lack of a specific hypothesis prior to the gathering of data, or the formulation of a hypothesis only after data have already been gathered and examined.
- Mir kommt es so vor, als ob das sehr ähnliche bis identische Konzepte sind, nur anders formuliert. Das bei Zielscheibenfehler als Literatur genannte Buch von Beck-Bornholdt und Dubben schildert als "Texanischen Scharfschützen" das, was hier p-Hacking heißt. Aber wenn die Bezeichnungen nirgends gemeinsam vorkommen, kann man die Artikel schlecht miteinander verlinken. --Hob (Diskussion) 23:16, 21. Apr. 2017 (CEST)
- Ich sehe keinerlei Überschneidung mit dem genannten Artikel? Kannst du vielleicht erklären was genau du meinst? Bei diesem Artikel geht man davon aus, dass eine bereits vorformulierte Hypothese untersucht wird, wobei der p-Wert unter die 5 % Grenze gedruckt wird. Viele Grüße. --JonskiC (Diskussion) 20:06, 21. Apr. 2017 (CEST)
"...also künstlich unter die 5-%-Grenze gedrückt."
BearbeitenIch glaube, dass das eine irreführende Darstellung ist. Mmn wird hier nichts künstlich gedrückt, sondern aufgrund eines methodischen Fehlers - es wird keine klar formulierte Hypothese getestet und auf Basis dieser Hypothese Daten erhoben -, ergeben sich, wenn man viele Parameter miteinander in Beziehung setzt, rein zufällig Korrelationen, die rein rechnerisch signifikant zu sein scheinen. (Wenn so etwas das Fall ist, würde man anschließend, um sicher zu gehen, dass das eben kein Zufallergebnis ist, eine Kreuzvalidierung durchführen, d. h., die Messdaten nach Zufallsprinzip in 2 Teile teilen, und dann nachsehen, ob für diese Teilmengen sich noch immer hinsichtlich derselben Parameter eine signifikante Korrelation ergibt. "Künstlich" klingt sehr nach Manipulation - aber da - bei diesen dargestellten Beispielen - wird nichts manipuliert, da ist nichts "künstlich", sondern alles zufällig. Also entweder ist der englische Ausdruck falsch gebildet hinsichtlich dem, was gemeint ist, oder aber, p-Hacking ist etwas anderes, als hier dargestellt wird - oder, ich hab was nicht verstanden :). Gruß, --Gkln (Diskussion) 02:27, 4. Okt. 2020 (CEST)
- Das Prinzip ist: Ich will einen Effekt finden (unter anderem weil keine wissenschaftliche Zeitschrift nichtsignifikante Ergebnisse haben will). Ich untersuche die Gesamtheit der Daten - kein Effekt. Ich teile die Daten auf und schaue mir die Teilmengen an - kein Effekt. Ich teile die Daten weiter auf - da ist der Effekt! Das ist p-Hacking, das Suchen, bis man was findet, und das kann man schon "künstlich gedrückt" nennen - der Druck ist, dass ich einen Effekt finden will, und die Kunst ist das Aufteilen.
- Das muss keine Absicht sein, aber wenn die Motivation die Kompetenz überholt, dann passiert sowas halt.
- Dass "alles zufällig" ist, ist der Default. Der Forscher sollte eigentlich wissen, wie er damit umgeht. P-Hacking ist nichts, was einem einfach so passiert, man muss dafür aktiv etwas tun.
- Übrigens: "rein zufällig Korrelationen, die rein rechnerisch signifikant zu sein scheinen" - Nein, die scheinen nicht signifikant zu sein, die sind es tatsächlich. Signifikant heißt ja nicht, dass es den Effekt wirklich gibt, sondern das ist nur die rein rechnerische Tatsache, dass p unter 5% ist. --Hob (Diskussion) 08:02, 4. Okt. 2020 (CEST)
- Sorry, aber von einem Aufteilen der Daten ist im Abschnitt "Statistische Signifikanz durch Zufall" nichts zu lesen. Das ist ein ganz neuer / anderer Aspekt, als dort dargestellt wird. Im Abschnitt geht es darum, dass beim Testen einer großen Anzahl von Hypothesen aus statistischen Gründen die eine oder andere Korrelation unter die übliche 5% Signifianzschranke fällt (sozusagen ein Alpha-Fehler, der umso wahrscheinlicher wird, je mehr Hypothesen getestet werden). Wenn p-Hacking aber auch durch Aufteilen der Daten und Prüfen der Teilmengen bewerkstelligt wird, dann gehört das in den Hauptartikel - und natürlich mit Quellenangabe, welcher Autor das so sieht. Gruß, --Gkln (Diskussion) 04:53, 6. Okt. 2020 (CEST)
Es fehlt eine Einordung in angewandte Statistik oder Studienplanung
BearbeitenDer Artikel verweist nicht auf wichtige Konzepte der Statistik bzw. Studienplanung, die verletzt oder missbraucht werden: Alphafehler-Kumulierung - wenn man systematisch solange Hypothesen testet, bis in einer Stichprobe ein signifikantes Ergebnis angezeigt wird, entsteht Alphafehler-Inflation. Dies wird beim Zielscheibenfehler bewusst verschleiert. Tatsächlich ist daher der Hypothesentest eben NICHT signifikant, auch nicht "rein rechnerisch". Es wurde nämlich z.B. keine Korrektur für Mehrfachtests angewandt. Das gilt auch für die Korrelationskoeffizienten, denn sie unterliegen auch der Stichprobenvarianz_(Schätzfunktion).
Der Zielscheibenfehler ist tatsächlich der Oberbegriff für das, was hier "p-Hacking" genannt wird. Der Artikel sollte besser erklären, was der Unterschied zum Zielscheibenfehler ist. Wenn ich den Artikel hier richtig verstehe, ist p-Hacking eine spezielle Art die Hypothese anzupassen bis ein vermeintlich positiver Hypothesentest herauskommt, mit Methoden des Data-Mining.
Schließlich fehlt auch Beziehung zum Evidenz-Level: Grundsätzlich ist es schwierig Studienergebnisse zu veröffentlichen, die dem gesamten Wissensstand widersprechen. Das wird hier zwar angedeutet mit dem Verweise auf Metaanalyse, die wäre aber gar nicht nötig: Die Hypothese in einer Studie muss gut begründet sein, z.B. durch ein Kausalmodell, Vorstudien oder eigene klinische Erfahrung. Es reicht nicht aus zu sagen "wir haben solange gesucht bis wir was gefunden haben". Daraus folgt, dass man bestenfalls bei explorativen Designs mit "p-Hacking" durchkommt. Die sind jedoch von niedriger Aussagekraft, siehe z.b. https://wpgs.de/fachtexte/forschungsdesigns/explorative-forschung-hypothesenpruefende-forschung-forschungsziel/
Schließlich ist die Fixierung auf die Überschreitungswahrscheinlichkeit ("p-Wert") schon ein systematischer Fehler an sich, weil man tatsächlich den gemessenen Effekt interpretiert, nicht den p-Wert. Siehe dazu Effektstärke. Vorsicht! Nur bei Korrelationskoeffizienten ("R-Wert") ist die Effektstärke tatsächlich der gemessene Effekt, ansonsten ist das eher ein Gruppenmittelwert oder Median, oder etwas vergleichbares.
In "Weitere Praktiken" und angrenzenden Abschnitten finden sich handfeste sachliche Fehler
BearbeitenDer Hinweis auf missbräuchliche Zwischenanalysen lautet: "Eine Variante des p {\displaystyle p} p-Hacking liegt vor, wenn während einer Studie die statistische Relevanz der Daten geprüft wird, um vom Ergebnis dieser Prüfung abhängig zu machen, ob weitere zusätzliche Daten erhoben werden. Desgleichen, wenn die Erhebung von Daten nach einer solchen Zwischenprüfung vorzeitig beendet wird. Stattdessen sollte vorab festgelegt werden, welche Datenmenge untersucht wird." Das ist so wie es da steht leider komplett falsch. Es gibt ein festgelegtes Protokoll für Zwischenanalysen in klinischen Studien, das genau diese Vorgehensweise regelt, siehe z.B. hier: https://www.uni-wh.de/fileadmin/user_upload/03_G/07_Humanmedizin/05_Institute/IMBE/27_-_CONSORT_Statement.pdf Höchstens wenn man vorsätzlich von diesem Protokoll abweicht, oder fehlerhaft vorgeht, könnte man demnach von "p-Hacking" sprechen.
Desweitern steht im Abschnitt: "Wenn zur Messung eines Effektes Störfaktoren herausgerechnet werden müssen, die Auswahl der zu berücksichtigenden Störfaktoren aber von der sich jeweils ergebenden Größe des gemessenen Effekts abhängig gemacht wird, ist dies ebenfalls p {\displaystyle p} p-Hacking." Auch das ist so wie es da steht einfach falsch. Es ist ausdrücklich erlaubt, "Confounder" oder Kovariaten wie "Schutz- und Risikofaktoren" zu kontrollieren bzw. in ein adjustiertes statistisches Modell einzubeziehen. Siehe unter Kovarianzanalyse_(Statistik). Und in diesem Fall ist garantiert der gemessene Effekt - ich glaube der Autor meint eigentlich die Effektstärke - von der Wahl der Schutz/Risikofaktoren abhängig und umgekehrt: Sonst wären es keine Risikofaktoren. Bei explorativen Studien ist es in diesem Fall üblich, beide Modelle - adjustiert und nicht-adjustiert - und die errechneten Effekte zu zitieren. Nur bei Missbrauch bzw. Unterschlagung oder Vertuschung könnte man von "p-Hacking" sprechen. Auch das wird im oben verlinkten "Consort-Statement" erklärt.
Bereits in der Einleitung ist ein missverständlicher bzw. falscher Satz eingebaut: "Der p {\displaystyle p} p-Wert wird „gehackt“, also künstlich unter die 5-%-Grenze gedrückt." Was dann im zweiten Abschnitt beschrieben wird ist aber ein bewusst provozierter Fehler 1. Art, auch "Alpha-Fehler" genannt, Alphafehler-Kumulierung. Ich halte es grundstäzlich für problematisch, neue Worte für Phänomene einzuführen, die in der statistischen Community schon sehr lange bekannt, erforscht und geregelt sind. Besonders prominent ist hier der britische Biostatistiker Doug_Altman, der unter anderem über die Cochrane_(Organisation) viele Beiträge geliefert hat.
Es scheint auch, dass der Autor im ganzen Text zwischen umgangssprachlich fälschlich so genannten "Hypothesentests", die eigentlich "Exploration" darstellen und bestätigenden Studien und den darin getestete Hypothesen nicht unterscheidet. Der Unterschied wird hier erklärt: https://wpgs.de/fachtexte/forschungsdesigns/explorative-forschung-hypothesenpruefende-forschung-forschungsziel/
--drisokk (Diskussion) 22:51, 16. Jun. 2021 (CEST)
- @Drisokk: Wikipedia:Sei_mutig. Bearbeite gerne den Artikel, sodass er deines Wissens nach verbessert wäre. biggerj1 (Diskussion) 22:46, 23. Okt. 2021 (CEST)