Diskussion:Kreuzvalidierungsverfahren
altes Beispiel raus
BearbeitenValidierung ist ein statistiches Verfahren, um die Vorhersagegüte eines Tests oder Fragebogens zu bestimmen. Aber solange hier profilneurotische Löscher das Sagen haben, werde ich keine Zeit mehr verschwenden, etwas zu investieren! Einige Abschnitte klingen so, als würde sich der Autor einen Scherz erlaubt haben (s.a. das Beispiel "Die Steinlaus"). In der psychologischen Fachliteratur gibt es jede Menge einfache gute Erklärungen. KDW. (nicht signierter Beitrag von 109.44.201.24 (Diskussion | Beiträge) 14:31, 30. Apr. 2010 (CEST))
- Volle Zustimmung, der Artikel ist totaler Müll. Man braucht das ja nur einmal in der englischen WP lesen und dann hier, da kommt einem das Grausen. Am besten komplett löschen und den englischen Artikel übertragen, der ist nämlich tausendmal besser. Da geht es auch wirklich ums Thema, viel verständlicher und noch dazu allgemeiner, ohne diese unnötigen Konkretbeispiele wie hier das Gequake über neu entwickelte Fragebögen und weiter unten der Psychologe, der Depressivität messen will. Dann noch die Themenüberschneidung mit Overfitting, der Abschnitt Problemstellung gehört fast komplett raus, vor allem das Schaubild hat hier nichts verloren. Da kann man froh sein, wenn man gut Englisch kann und sich das hier nicht anzutun braucht. -- 84.146.159.138 03:03, 30. Mai 2012 (CEST)
Beispiel raus, die Bilder helfen meiner Meinung nach mehr. Meiner Meinung nach ist Kreuzvalidierung ein wichtiges Werkzeug um Overfitting zu untersuchen, das sollte drin bleiben
Anmerkungen
BearbeitenKreuzvalidierung wird ja nicht nur im Falle von Klassifizierungen (Diskriminanzanalyse) verwendet, sondern allgemein wenn es um die Abschätzung von Prognosefehlern geht. Der Fehler kann dann sowohl positiv als auch negativ sein, und deshalb nimmt man entweder den Absolutbetrag oder aber den quadrierten Fehler um den Mittelwert zu berechnen.
Zu dem kuriosen Beispiel im Abschnitt Leave-One-Out-Kreuzvalidierung: Wenn die erklärende Variable nichts mit der Zielvariable zu tun hat ("zufällige Datenmenge"), liegt eine Fehlspezifikation vor und eine Fehlerquote von 100% ist meiner Meinung nach eine willkommene Warnung und keine Schwachstelle von LOO-CV (Auch wenn die Fehlerquote bei rein zufälligem Raten nur 50% betragen würde).
Zu Problemen kann es bei LOO-CV aber kommen, falls sich (zufällig oder systematisch bedingt) gleiche Beobachtungen in den Daten befinden: Der Prognosefehler wird dann zu optimistisch ausfallen.
Jedenfalls liefert Leave-One-Out-Kreuzvalidierung im Gegensatz zur k-fachen Kreuzvalidierung ein eindeutiges Ergebnis (es kommt also nicht auf die Reihenfolge der Daten an).
--VincentBosch 00:09, 5. Feb. 2008 (CET)
- Ich habe auch meine Probleme mit dem Beispiel beim LOO Abschnitt. Erstens wird hier die Abkürzung LOO-CV eingeworfen ohne sie näher zu Erläutern. Zweitens wird von "dem Klassifikator" gesprochen, der immer in Richtung der Mehrheitsklasse entscheidet - das mag auf irgendwelche simplen oder theoretischen Verfahrn zutreffen, aber bei jenen mit denen ich in der Praxis zu tun habe dürfte die Wahrscheinlichkeit dafür relativ gering sein (k-NN, LVQ, LDA, SVM,...). Drittens gibt es beim Problem mit der Stratifizierung auch das Gegenargument, das man bei ausreichend großer Stichprobe eine vernachlässigbar kleine Verzerrung der Verteilung hat, wenn man nur 1 Sample aus der Trainingsmenge entfernt. Viertens ist das mit dem Rechenaufwand vollkommen richtig, aber es gibt Klassifikationsverfahren bei denen die Schätzung des LOO Fehlers wiederrum sehr effizient geschätzt werden kann (SVM, siehe Th. Joachims, Learning to Classify Text using Support-Vektor-Machines). Ich werde nochmal drüber nachdenken und ggfs. den Abschnitt anpassen. -- ThomasSchnupp 08:46, 8. Jan. 2010 (CET)
Doppelte Kreuzvalidierung?
BearbeitenIm Beispiel (der Psychologe) ist von einer doppelten Kreuzvalidierung die Rede, wenn die Rollen der Gruppen vertauscht werden. Aber muss man das nicht immer tun, wenn man eine Kreuzvalidierung macht? Also, mit k = 1 bekommt man keine Kreuzvalidierung, mit k = 2 handelt es sich um eine doppelte, mit k = 3 um eine dreifache usw. Und es müssen k Modelle erstellt werden, die jeweils k-1 Datenportionen zum Modellerzeugen und 1 Datenportion zum Test verwenden. Folglich muss man bei k = 2 beide Portionen einmal zum Erzeugen und einmal zum Überprüfen eines Modells verwenden. Oder verstehe ich das Verfahren falsch? --217.91.139.42 17:48, 19. Mär. 2018 (CET)