Diskussion:Varianzanalyse
Verständlichkeit
BearbeitenIch habe im Beispiel zur zweifaktoriellen ANOVA den Satz "Die durch eine peripherphysiologische Messung erfasste Nervosität [...]" in "Die Nervosität [...]" geändert. Ich denke, die Änderung macht das Beispiel verständlicher. Schließlich geht es hier um das Verständnis des "zweifaktoriell" und nicht um die Methoden zur Messung von Nervosität. Dass operationalisiert und gemessen werden muss, geht aus dem letzten Satz des Beispiels hervor (der allerdings auch noch verbesserungswürdig ist). Bei Einspruch, bitte hier melden. Grüße, -- MM-Stat 14:02, 30. Sep. 2009 (CEST)
Varianzbeispiel angepasst, 18:16 17. Feb 2007 (CET)
BearbeitenVerbesserungswürdig
BearbeitenDer Artikel ist m.E. verbesserungsfaehig... Wie kommt man bspweise vom Modell zum Test? Was sind, wie betimme ich die Effekte, Interaktionen etc ? Das Beispiel ist gut, aber ich kann nicht beurteilen, wie typisch es fuer ein Varianzanalyse ist. Pirogo, 2004-10-09-1707
Die Varianz wird im Beispiel mit der Formel für die Schätzung der Varianz auf Basis einer Stichprobe berechnet. Das ist m.E. nicht korrekt. Sie muss mit der Formel für die Varianz einer Grundgesamtheit berechnet werden. Damit ergeben sich Varianzen von 431.8 und 655.8. Ich bin aber auch kein Experte der Varianzanalyse, daher stelle ich das hier mal zur Diskussion.
Fehler? Januar 09
BearbeitenDer Satz "Man kann mathematisch zeigen, dass bei Gültigkeit der Nullhypothese der Varianzanalyse gleichzeitig gilt, dass Treatment- und Fehlervarianz gleich sein müssen."
ist meiner Meinung nach falsch. Gibt es keinen Unterschied zwischen zwei Faktoren, so ist deren Mittelwert idealerweise identisch und daraus ergibt sich eine Treatmentvarianz von 0. Die Fehlervarianz muss dann noch lange nicht 0 sein. Besteht absolut kein Treatment Effekt so ist also der F-Wert 0 und nicht 1. Damit sind Treatment- und Fehlervarianz nicht identisch.
Aus dem Artikel hierher verschoben
BearbeitenFolgende Bemerkung hat gerade eine IP in den Artikel geschrieben:
Diese Formel ist falsch, Streuungszerlegungssatz anwenden! Ergebnis für gemeinsame Varianz=791,84 http://www.rrz.uni-hamburg.de/IfStOek/wegsch/gk1_ws04_05/stat_1_6_ws04-05n.pdf
Grüße --Engie 21:46, 16. Jul. 2007 (CEST)
- Laut Excel ist die Varianz ("Stichproben"-Varianz) einer großen Gruppe mit allen Messwerten 769,9, und nicht 604,15 und auch nicht 791,84. Wenn man mit Excel (Extras->Analyse-Funktionen) einen F-Test (a=0,05) zu den Daten durchführt, so kommt man auf folgendes Ergebnis:
Zwei-Stichproben F-Test | Gruppe 1 | Gruppe 2 |
---|---|---|
Mittelwert | 57,8 | 85,2 |
Varianz | 479,73 | 728,62 |
Beobachtungen | 10 | 10 |
Freiheitsgrade (df) | 9 | 9 |
Prüfgröße (F) | 0,6584 | |
P(F<=f) einseitig | 0,2717 | |
Kritischer F-Wert bei einseitigem Test | 0,3146 |
- Könnte mal jemand zu der Problematik "gemeinsame Varianz" was schreiben und evtl. das Beispiel im Artikel auf Korrektheit prüfen? -- 92.206.70.57 15:10, 8. Feb. 2012 (CET)
Folgendes könnte noch zur Aufklärung beitragen: Wenn man in Excel die Analyse-Funktion "Zweistichproben t-Test unter der Annahme gleicher Varianzen" durchführt, mit "Alpha=0,05" und "Hypothetische Differenz der Mittelwerte=0" wird folgendes ausgegeben:
Zweistichproben t-Test unter der Annahme gleicher Varianzen | Variable 1 | Variable 2 |
---|---|---|
Mittelwert | 57,8 | 85,2 |
Varianz | 479,7333333 | 728,6222222 |
Beobachtungen | 10 | 10 |
Gepoolte Varianz | 604,1777778 | |
Hypothetische Differenz der Mittelwerte | 0 | |
Freiheitsgrade (df) | 18 | |
t-Statistik | -2,492603447 | |
P(T<=t) einseitig | 0,011326747 | |
Kritischer t-Wert bei einseitigem t-Test | 1,734063592 | |
P(T<=t) zweiseitig | 0,022653495 | |
Kritischer t-Wert bei zweiseitigem t-Test | 2,100922037 |
Hier ist als "gepoolte Varianz" der Wert 604,15 dargestellt, der im Artikel als gemeinsame Varianz bezeichnet wird. -- 92.206.70.57 15:23, 8. Feb. 2012 (CET)
- Aus SPSS:
- Einfaktorielle ANOVA
Quadratsumme df Mittel der Quadrate F Signifikanz Zwischen den Gruppen 3753,800 1 3753,800 6,213 ,023 Innerhalb der Gruppen 10875,200 18 604,178 Gesamt 14629,000 19
- Zweistichproben t-Test
VAR00002 N Mittelwert Standardabweichung Standardfehler des Mittelwertes VAR00001 1,00 10 57,8000 21,90282 6,92628 2,00 10 85,2000 26,99300 8,53594
Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz F Signifikanz T df Sig. (2-seitig) Mittlere Differenz Standardfehler der Differenz Untere Obere VAR00001 Varianzen sind gleich ,413 ,528 -2,493 18 ,023 -27,40000 10,99252 -50,49443 -4,30557 Varianzen sind nicht gleich -2,493 17,267 ,023 -27,40000 10,99252 -50,56486 -4,23514
- Grüsse --Sigbert 17:26, 10. Feb. 2012 (CET)
- Dann kann man das Beispiel also als korrekt bezeichnen, danke! ~~---- (nicht signierter Beitrag von 92.206.70.57 (Diskussion) 21:16, 10. Feb. 2012 (CET))
- SPSS behauptet allerdings nicht die gemeinsame Varianz geschätzt zu haben; es heisst dort Mittel der Quadrate. --Sigbert 14:09, 12. Feb. 2012 (CET)
Was ist mit dem S.-W. Test auf Normalverteilung?
BearbeitenWarum wurde der Shapiro-Wilk-Test nicht erwähnt? Gruß--SMKook 15:41, 13.Okt. 2008
- Da hast du recht; der Kolmogorow-Smirnow-Test gehört in die statistische Mottenkiste (besonders bei kleinen Fallzahlen). Geändert. →Alfie±Diskussion 02:35, 24. Dez. 2009 (CET)
Nur kategoriale Variablen?
BearbeitenWieso wird bei den Einflussvariablen auf kategoriale Variablen eingeschränkt? Es lassen sich genausogut stetige Variablen als Faktoren verwenden. Ich glaube der Autor hatte hier zu sehr den Placebo gegen Wirkstoff-Test aus der Medizin im Kopf. --Jogy sprich mit mir 13:07, 1. Jun. 2010 (CEST)
- Würde ich dann nicht gleich ein Regressionsmodell schätzen? -- Sigbert 18:10, 1. Jun. 2010 (CEST)
- Im Prinzip ja. Aber das ist auch genau das, wofür Statistikprogramme die Varianzanalyse benutzen. So wie es im Moment dasteht liest man heruas, dass es unbedingt kategoriale Variablen sein müssen. Natürlich kann ich jede stetige Variable durch geeignete Klasseneinteilung in eine solche umwandeln, nur kann man zum einen dieses Wissen nicht als gegeben voraussetzen, zum anderen ist es aus meiner Sicht gar nicht notwendig. Ich muss nur Faktorstufen definieren, ob die nun einen Klassenmittelwert oder den konkreten Wert einer Variable darstellen ist für das Verfahren zunächst mal egal, das spielt erst bei der Interpretation eine Rolle. --Jogy sprich mit mir 08:25, 2. Jun. 2010 (CEST)
- Nachtrag: An dem Artikel stört mich noch einiges mehr... z.B. der Satz
- Mit den Prüfgrößen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen.
- Zum einen ist das stark vereinfacht, letztendlich ist es nicht die Varianz innerhalb der Gruppen, sondern die mit dieser Varianz geschätzte Varianz der Gruppenmittelwerte die mit der aus den einzelnen Gruppenmittelwerten geschätzten Varianz der Gruppenmittelwerte verglichen wird. Da kommt dann oft geschätzt vor, aber das ist ja ein wesentlicher Punkt. Und außerdem reicht es auch nicht aus, dass diese einfach nur größer ist, das besagt lediglich, dass F > 1 ist. Das wäre nur bei unendlich vielen Freiheitsgraden ein Zeichen für Signifikanz - und wann hat man die schon mal?
- Den Satz Die Wahrscheinlichkeit, sich damit zu irren liegt unter 5 % habe ich gestern schon entfernt, denn strenggenommen macht das eine Aussage über die Wahrscheinlichkeit der Nullhypothese - und genau die bekommt man nicht, siehe auch Beurteilung eines Klassifikators (vor allem das Beispiel, damit wird es schnell klar). Man bekommt eine Aussage, wie wahrscheinlich das Ergebnis bei korrekter Nullhypothese wäre (Fehler 1. Art), es müßte also etwas in der Art von Die Wahrscheinlichkeit, einen Unterschied zu erkennen obwohl ein solcher nicht vorliegt, ist geringer als 5 % sein.
- Zudem fehlt sowohl hier als auch beim t-Test die Erwähnung des Fehlers 2. Art oder des Begriffs Power. Das ist nämlich auch ein Fehler, der gerne gemacht wird, dass nämlich aus dem Fehlen der Signifikanz ein Fehlen des Einflusses geschlossen wird. Im Beispiel zur einfachen Varianzanalyse war die Power für einen Unterschied in der Höhe von 50% des Wertes der ersten Serie (also ca. 29) nur bei rund 0,7. D.h. die Wahrscheinlichkeit einen solchen Unterschied nicht zu erkennen obwohl er vorliegt (also der Fehler 2. Art) wäre 30%. --Jogy sprich mit mir 08:50, 2. Jun. 2010 (CEST)
- 2. Nachtrag: Und das Beispiel ist insgesamt ungeschickt, da der Vergleich von zwei Mittelwerten auch problemlos mit dem t-Test erledigt werden kann (in dem Fall sind die beiden Methoden äquivalent). Erst wenn es mehr werden, wird die Varianzanalyse interessant. --Jogy sprich mit mir 09:17, 2. Jun. 2010 (CEST)
- Zum ersten Nachtrag: Ich finde den Satz (Varianz zwischen den Gruppen größer als die Varianz innerhalb der Gruppen), so wie er steht in Ordnung. Klar, dein langer Satz, wo mehrmals das Wort "schätzen" drinsteht ist auch korrekt. Allerdings ist er für Leute, die die Varianzanalyse nicht kennen auch sehr verwirrend. Der im Augenblick verwendete Satz ist dagegen sehr eingängig und sollte sogar von Laien verstanden werden. Man kann ja in Klammern noch hinzufügen: "(Natürlich sind die genauen Varianzen unbekannt und können nur geschätzt werden.)"
- Bei der Irrtumswahrscheinlickeit hast du Recht. Dieser Satz war tatsächlich falsch. Ich würde folgenden Satz vorschlagen:
- Die Wahrscheinlichkeit, einen Unterschied anzunehmen, obwohl dieser nicht vorliegt, liegt bei unter 5%. Dies gibt jedoch nicht die Irrtumswahrscheinlichkeit an. --Eulenspiegel1 11:57, 2. Jun. 2010 (CEST)
- Finde den Satz so gut, bringt es auf den Punkt.
- Bezüglich der Varianzen ging es mir weniger um das "geschätzt", sondern mehr darum, dass es eben nicht die Varianz innerhalb der Gruppe ist, mit der da verglichen wird. Aus dieser Varianz wird eine Mittelwertvarianz abgeleitet und die dann mit der Mittelwertvarianz verglichen, die sich aus den einzelnen Mittelwerten ergibt. Das ist auch so ein Punkt, der bei dem Beispiel unschön ist: Nicht wird ein Fall verwendet, der sich auch mit dem t-Test erledigen läßt, es wird zudem die Formel des t-Tests angewandt (nur eben quadriert). Das ist bei zwei Mittelwerten natürlich völlig ok, die beiden Tests sind äquivalent und es gilt F = t², nur läßt sich diese Formel nicht ohne weiteres auf mehr als zwei Mittelwerte erweitern. Ok, bei unterschiedlichen Probenumfängen ist das so oder so nicht trivial, wenn die Gruppen jedoch gleiche Stichprobenumfänge aufweisen, ist die Formel ganz einfach.
- Und auch die Anmerkung bezüglich der Verwendung von n-1 statt n ist seltsam... das wird nicht manchmal so gemacht, sondern es ist die mathematisch korrekte Methode es so zu machen, da die Gewichtung mittels der Freiheitsgrade erfolgt. Bei Gleichheit der Probenumfänge spielt das keine Rolle und bei einigermaßen großen Probenumfängen ist es vernachlässigbar, aber korrekt dargestellt werden sollte es schon. --Jogy sprich mit mir 13:51, 2. Jun. 2010 (CEST)
Bedeutung der Varianzanalyse: Kausalität
BearbeitenNach meinem Wissen ist ein Zusammenhang (=Korrelation) noch keine Erklärung von Ursache und Wirkung (=Korrelation). Das scheint mir in dem Absatz zur Bedeutung unscharf zu sein. Dies alles als Anregung. Danke für die Arbeit hier! --Ldwg 16:59, 7. Jun. 2011 (CEST)
Feste / zufällige Faktoren
BearbeitenFür die Berechnung der Varianz macht es einen Unterschied, ob ich feste oder zufällige Faktoren habe. Das wird bei der zweifaktoriellen Anova zwar mal kurz erwähnt, scheint mir aber wichtig(er) zu sein. Vielleicht komme ich heute abend dazu, einen Absatz einzuarbeiten. Oder fühlt sich jemand Wissenderes berufen? --178.15.132.6 09:59, 12. Apr. 2012 (CEST)
N statt n
Bearbeiten"Die Größe ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer -Verteilung, wobei die Anzahl der Gruppen (Faktorstufen) und die Anzahl der Messwerte sind. Die Indizes werden als Freiheitsgrade bezeichnet. Der Wert der F-Verteilung für gegebene Freiheitsgrade (F-Quantil) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall ist das F-Quantil zur Irrtumswahrscheinlichkeit 5 %"
weiter oben im Artikel wird N als Gesamtzahl der Messwerte bezeichnet. Wäre es deshalb nicht besser, auch hier N zu schreiben:
"Die Größe ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer -Verteilung, wobei die Anzahl der Gruppen (Faktorstufen) und die Anzahl der Messwerte sind. Die Indizes werden als Freiheitsgrade bezeichnet. Der Wert der F-Verteilung für gegebene Freiheitsgrade (F-Quantil) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall ist das F-Quantil zur Irrtumswahrscheinlichkeit 5 %" (nicht signierter Beitrag von Heisss (Diskussion | Beiträge) 20:15, 13. Apr. 2012 (CEST))
In den Nieedrlanden ist es ziemlich ueblich z.B. 5% wie eine Einheit, ohne Lehrzeichen zu schreiben statt 5 %. Gibt es dafuer einen Regel im Deutschen? Nijdam (Diskussion) 16:45, 7. Mai 2012 (CEST)
- Das wäre im Deutschen genauso, aber irgentwelche Vickyfanten haben sich da anders ausgedacht. Tot ziens, fossa net ?! 21:56, 7. Mai 2012 (CEST)
- Beispielweise bei Springer macht man einen halben Abstand. Gruß --Philipendula (Diskussion) 12:47, 8. Mai 2012 (CEST)
- Was werden wird machen in Wikipedia, mit oder ohne Leerzeichen? Ich bevorzuege ohne. Nijdam (Diskussion) 13:37, 13. Mai 2012 (CEST)
- Beispielweise bei Springer macht man einen halben Abstand. Gruß --Philipendula (Diskussion) 12:47, 8. Mai 2012 (CEST)
Gleicher Umfang notwendig?
BearbeitenIm Text steht Im Fall von k Gruppen mit gleichem Umfang n/k gilt unter der Nullhypothese außerdem:. Ist es wirklich notwendig, dass in allen Gruppen der Stichprobenumfang gleich gross ist, damit die Chi^2-Verteilung folgt? --Sigbert (Diskussion) 10:17, 13. Aug. 2012 (CEST)
Zu Abschnitt 4 (Voraussetzungen)
BearbeitenIch finde "Varianzhomogenität der Stichprobenvariablen; Normalverteilung der Stichprobenvariablen" schwer verständlich bzw. irreführend. Korrekter wäre doch etwas in der Art "Die Werte der untersuchten Gruppen entstammen normalverteilten Grundgesamtheiten; die Varianzen der untersuchten Stichproben sind homogen." Korrekt(er) wäre auch "die Residuen (Vorhersagefehler) entstammen einer normalverteilten Grundgesamtheit."--Kjalarr (Diskussion) 22:33, 21. Mär. 2014 (CET)
betrifft beispiel zur 1-weg-anova
Bearbeitenin der beispielrechnung mit den zwei gruppen wird zur berechnung des mittleren "effekt-quadrats" (MQSA) nicht explizit durch k-1 geteilt. ist bei k = 2 natürlich nicht falsch, aber etwas irreführend, da die formel direkt nach "MQSA=" ansonsten ja allgemein (also auch ohne Zahlenwerte für n1 und n2) angegeben ist. (nicht signierter Beitrag von 144.200.17.40 (Diskussion) 19:57, 24. Okt. 2016 (CEST))
Bemerkung zur Notation
BearbeitenIn folgendem Paragraphen erscheint mir die Notation als sehr umständlich und schwer leserlich. Zum Beispiel: . Was hat es mit den Punkten auf sich? Und warum sind diese oben nicht explizit definiert? Gemäss meinen mathematischen Grundkentnissen sind das nicht gerade die gängigsten Notationen für Mittelwerte. Wäre es nicht förderlich fürs allgemeine Verständtnis (und im Sinne eines allgemeinen Nachschlagewerks) auffallendere Notationen wie zum Beispiel zu verwenden und deren Definition aufzulisten?
Anzahl der Zielvariablen
BearbeitenBei genau zwei Variablen spricht man von einer bivariaten Varianzanalyse. Wird das hier nicht explizit erwähnt, weil es nur ein Sonderfall einer multivariaten Analyse ist, oder gibt es dabei doch Besonderheiten? Hodsha (Diskussion) 09:34, 30. Apr. 2019 (CEST)