Diskussion:Korrigierte Stichprobenvarianz/Archiv/1

Verteilung der Empirischen Varianz bei normalverteilter ZV

Sobald es um das Konfidenzintervall für die empirische Varianz für eine Stichprobe der Größe n geht (beobachtete ZV normalverteilt und Beobachtungen unabhängig), heißt es immer, dass die empirische Varianz einer Chi-Quadrat-Verteilung mit   Freiheitsgraden gehorcht (nachdem man das Ganze mit einer Konstanten   multipliziert hat). Mir ist das völlig unklar, warum soll das denn so sein? Eine mathematische Herleitung kann ich nirgendwo finden, alle Welt scheint sich darauf geeinigt zu haben, dass das so ist und keinem nachprüfbaren Beweis bedarf...

Sollte man im Artikel nicht kurz auf diese Aussage verweisen und eine Begründung geben, warum das so ist?

6. Mrz. 2009

Siehe Chi-Quadrat-Verteilung #Herleitung der Verteilung der Stichprobenvarianz --131.220.161.244 12:57, 22. Feb. 2010 (CET)

Empirische Varianz: Erklärung

Ich bin Statistiker, und es wirklich ganz einfach - es gibt keine Verwirrung:

  • Varianz ist eine Eigenschaft einer Verteilung.
  • die empirische Varianz ist ein Schätzer der Varianz. Es gibt auch noch

viele andere "nicht-empirische" Schätzer (Bayes etc).

  • Ein "empirischer Schätzer" ist ein Schätzer der ein Funktional der der empirischen Verteilung ist. Für die Varianz und Kovarianz heisst das, man nimmt die Definition, und ersetzt die Erwartungswerte durch Mittelwerte.
  • Die empirische Varianz hat daher den Nenner  .
  • aus der empirischen Varianz kann man die unverzerrte empirische Varianz

mit Bias=0 (Erwartungstreu) konstruieren, in dem man den Nennern   verwendet.

  • das hat aber auch Nachteile: der Bias der unverzerrte empirische Varianz ist zwar nun 0 aber dafür ist der Mean Squared Error (MSE) der unverzerrten empirischen Varianz größer wie der MSE der ML empirischen Varianz.


Also, lieber NeoUrfahraner, bitte die Seite wieder auf "Empirische Varianz" umbenennen, den Terminus "korrigierte Stichprobenvarianz" gibt es nicht wirklich ...

Wenn "Empirische Varianz" eindeutig ist, soll es mir recht sein. Schon der zweite Googletreffer http://www.matheboard.de/archive/192032/thread.html liefert allerdings "empirische Varianz" mit n-1 im Nenner. Wie immer, dieser Artikel hier geht um die Variante mit n-1 im Nenner, ob er jetzt "Korrigierte Stichprobenvarianz" oder "unverzerrte empirische Varianz" heißt, ist mir egal, Hauptsache ist, es ist klar, dass nicht die Variante mit n im Nenner gemeint ist. --NeoUrfahraner 03:30, 4. Sep. 2008 (CEST)
Da also keine Reaktion gekommen ist, habe ich auf 10:05, 21. Aug. 2008 revertiert. Um es also nochmals zu wiederholen: in diesem Artikel geht es um die Variante mit n-1 im Nenner. Wenn's dafür eine bessere Bezeichung gibt, kann man gerne nochmals umbenennen, solange klar bleibt, dass n-1 gemeint ist. --NeoUrfahraner 18:52, 22. Sep. 2008 (CEST)

Empirische Varianz oder Stichprobenvarianz?

In der Literatur herrscht leider eine arge Konfusion über die Begriffe "Varianz" und "empirische Varianz" und "Stichprobenvarianz".

Das Lehrbuch Eckstein,Peter P.: Repetitorium Statistik - 4.Aufl. - Gabler-Verlag, Wiesbaden 2001 unterscheidet abweichend vom aktuellen Wikipedia-Artikel (06.02.2007) zwischen


- "empirischer Varianz" als dem arithmetischen Mittel der quadrierten Abweichungen vom Mittelwert von n Merkmalswerten. -  

und der

- "Stichprobenvarianz" einer Stichprobe vom Umfang n als Schätzwert für die Varianz der Grundgesamtheit  

und schließlich der

- "Varianz" einer Zufallsvariablen.

Entsprechendes gilt bei Eckstein jeweils für die Standardabweichung.

Andere Quellen verwenden die Begriffe alle drei oder paarweise synonym. Siehe auch ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung - Stichwort "Varianz"

Mir scheint hier Klärungsbedarf vorzuliegen. Da ich kein Experte bin, möchte ich aber nicht alleine die Verantwortung für eine Korrektur übernehmen.

Hans Haas, Aßling (Der vorstehende, nicht signierte Beitrag stammt von 84.152.96.138 (DiskussionBeiträge) 20:22, 6. Feb. 2007)

Die Literatur ist evtl. nicht völlig eindeutig; die meisten Werke, die ich kenne, verwenden den Nenner n-1 für die emprische Varianz. Der Faktor n ist dann zu verwenden, wenn der wahre Mittelwert bekannt ist; insbesondere also, wenn die zu untersuchenden Daten nicht als Stichprobe, sondern als Grundgesamtheit interpretiert werden (z.B. wenn man Mittelwert und Varianz irgendeiner Statistik über alle Staaten der Erde aufstellt - da ist ja die Grundgesamtheit der ca. 200 Staaten fix und der Mittelwert exakt bekannt). --NeoUrfahraner 09:07, 28. Apr. 2008 (CEST)

Unverständlich

Liebe Mathematiker, ich schätze mal, dass ca. 99,9 % der anderen WP-Benutzer nicht verstehen, was hiermit gemeint sein soll:

Wie man durch Differenzieren sieht, ist   jener Wert, bei dem   das Minimum bezüglich   annimmt; es gilt also

 

Verwendet man den Nenner  , so unterschätzt man die Varianz.

Könnte das denn vielleicht nochmal jemand in verständliche WORTE fassen? Bzw. hätte denn jemand etwas dagegen, wenn ich wegen dieses Satzes den Unverständlichkeitsbaustein in den Artikel setzte? Gruß, --Oliver s. 23:57, 3. Okt. 2008 (CEST)

Man kann für die Funktion   eine ganz normale Kurvendiskussion durchführen, und da   zweimal differenzierbar in x ist, hinreichende und notwendige Bedingungen für Extremwerte an der ersten und zweiten Ableitung überprüfen. Viel Spaß beim verständlich formulieren... --Erzbischof 11:17, 4. Okt. 2008 (CEST)
Hallo Erzbischof!
Ich würde das mit dem Umformulieren ja mal probieren, wenn du mir dabei (quasi in christlicher Nächstenliebe) ein bisschen helfen würdest; z.B. indem du das, was hier allgemein gesagt werden soll, mal anhand eines Beispiels (mit ausformulierter) Kurvendiskussion konkretisierst. Auch was mit dem Satz:
"Die Ersetzung des exakten Mittelwerts durch den Stichprobenmittelwert muss also berücksichtigt werden. Es lässt sich zeigen, dass der Nenner   der richtige Korrekturfaktor ist..."
könnte doch mal jemand genauer zeigen. Warum ist er denn   und nicht z.B.   oder   oder   oder gar völlig variabel und abhängig vom Verhältnis der Stichprobengröße zur Gesamtmenge? Ergebenst :-) --Oliver s. 00:09, 5. Okt. 2008 (CEST)

Hochpunkte von Funktionen durch Nullsetzen der Ableitung (und überprüfen der hinreichenden Bedingung) zu berechnen ist Thema der Mathematik-Oberstufe und ist in meinem Beitrag verlinkt, nämlich unter: Kurvendiskussion#Extrempunkte, das musst du dir allerdings selbst durchlesen, vorrechnen werde ich es nicht. Zu zeigen, dass 1/(n-1) der richtige Faktor ist, ist etwas schwieriger, und wenn du schon Schwierigkeiten mit der Erklärung zu ersterem hattest, wirst du die nötige Rechnung wohl nicht nachvollziehen könnne (aber du kannst sie dir trotzdem ankucken, z.B: http://www.mathematik.uni-ulm.de/~m_baur/stichprobenvarianz.pdf.) Nimm doch mal eine Grundgesamtheit mit Varianz   berechne den Erwartungswert des Varianzschätzers für   Werte   und   in der Stichprobe:

 
 
 

hier müsstest du weiterrechnen... du wirst verstehen, warum ich das nicht tue

 ,

für   ist der richtige Faktor also   und kein anderer. --Erzbischof 20:28, 5. Okt. 2008 (CEST)

  • Ich will mit dem Dank für deine Mühe hier lieber nicht warten, bis ich da durchgestiegen bin ;-). Aber vielleicht hilft das ja inzwischen auch schon einem anderen, das, was im Artikel allgemeinverständlich gesagt werden könnte auch allgemeinverständlich zu sagen. Vielen Dank also erstmal! --Oliver s. 22:24, 5. Okt. 2008 (CEST)

ps: Kurze Rückfrage: warum heißt es eigentlich:

 

und nicht

 

(das hätte ich jedenfalls so erwartet) Gruß, --Oliver s. 22:59, 5. Okt. 2008 (CEST)

Hallo Oliver s., es heißt, wie Du erwartet hättest (das andere ist ein Tippfehler). --Wickie1681 23:15, 5. Okt. 2008 (CEST)
In meiner Überarbeitung habe ich auf den Artikel Standardfehler verwiesen, dort ist allerdings die Berechnung desselben auch nicht komplett durchgeführt. Sie ist nicht so schwierig:
 
Von der ersten zur zweiten Zeile wurde hierbei die angenommen stochastische Unabhängigkeit der   benutzt, und von der zweiten zur dritten Zeile die Formeln   sowie   und die kombinatorische Tatsache, dass es math>\tfrac{n(n-1)}2</math> Paare   mit   gibt. Schlägt man den im Artikel gezeigten Weg ein, so ersetzt diese Rechnung die obige Rechnung von Erzbischof (die nach längerer Rechnung wohl auch zum Ziel führen würde). --Wickie1681 23:33, 5. Okt. 2008 (CEST)

Hallo Wickie und Erzbischof, ich danke euch für euer Bemühen, euren Sachverstand einer breiteren Leserschaft zugänglich zu machen. Ich habe leider nicht das Gefühl, dass ich es in den nächsten Tagen schaffen kann, genug Zeit freizuschaufeln, um mich so einzuarbeiten, dass ich vernünftig mitreden könnte. Da ich also nicht mehr ausschließen kann, dass der Artikel inzwischen so verständlich wie möglich ist, würde ich es gerne euch überlassen dies zu beurteilen und ggf. den Baustein wieder aus dem Artikel zu entfernen. Gruß, --Oliver s. 20:16, 6. Okt. 2008 (CEST)

Meiner Meinung nach ist es jetzt OK, daher entferne ich den Baustein. --NeoUrfahraner 20:27, 6. Okt. 2008 (CEST)

Stichprobenstandardabweichung

Aus dem Artikel "Da die Erwartungstreue bei Anwendung einer nichtlinearen Funktion in den meisten Fällen verloren geht, ist die Stichprobenstandardabweichung im Gegensatz zur korrigierten Stichprobenvarianz kein erwartungstreuer Schätzer für die Standardabweichung." -> Ich hab das Gefühl, da wird etwas mit sich selbst erklärt. --source 08:56, 8. Okt. 2008 (CEST)

Aussage 1: Ist f(x) nichtlinear, so ist (meist) Ef(X) != f(EX)
Aussage 2: Die korrigierte Standardabweichung ist eine nichtlineare Funktion f(S^2)
Schlussfolgerung: Es ist zu erwarten, dass Ef(S^2) != f(ES^2).
Alles klar? --NeoUrfahraner 18:19, 9. Okt. 2008 (CEST)

Rechtfertigung von n-1

Zitat:

"Deshalb berücksichtigt man bei der Definition der Stichprobenvarianz nur Paare   mit  . Nur wenn deren Differenzen sich zu null ergeben (wenn also   ist) oder wenigstens nicht groß sind, ist es ein Indiz für eine kleine Streuung der Daten. Die ausschließliche Berücksichtigung von Paaren   mit   bei der Berechnung der empirischen Varianz entspricht der eingangs erwähnten Varianz-Definition und rechtfertigt so die Division der dortigen Summe durch  ."

Die Rechtfertigung von n-1 ergibt sich dadurch, dass damit der Schätzer erwartungstreu ist. Überlegungen, ob oder warum nur   berücksichtigt wird, liefert bestenfalls eine heuristische Erklärung, die den Faktor verständlicher macht, aber keinerlei "Rechtfertigung". --NeoUrfahraner 06:26, 28. Apr. 2008 (CEST)

Nein, NeoUrfahrander, was diesbezüglich im Artikel steht, ist sehr sauber, auch wenn du es heursitisch nennen magst. Es geht um eine faire Varianzdefinition, die im Gegensatz zur Spannweite, welche bei mehr Daten i. Allg. größer ausfällt, ein faires Durchschnittsmaß bietet. Bei Division durch n ist das nicht der Fall, da der Anteil der selbstidentischen Nulldifferenzen (dass ich genauso groß bin wie ich, hat ja wohl nichts mit Streuung zu tun) bei wenigen Daten größer ist und somit die Varianz mehr nach unten zieht als bei mehreren Daten. Übrigens: es sprechen hier alle immer von Erwartungstreue; keiner sagt, was er denn überhaupt schätzen will. Ist die Grundgesamtheit endlich mit N Elementen, dann soll hier auch mal gesagt werden, dass die aus ihr ohne Zurücklegen gezogene Stichprobenvarianz mit n-1 als Divisor die Varianz dieser endlichen Grundgesamtheit nur dann erwarungstreu schätzt, wenn man auch bei deren Definition N-1 und nicht N, die Zahl der Elemente der Grundgesamtheit, als Divisor nimmt (Beweis auf Seite 8 meines Journal-Artikels The striking criterion whether variance calculation requires dividing the sum of squares by the number of summands or by that number less one). Und wie willst du nun die Verwednung von N-1 mit der Erwartungstreue begründen. Hier befinden wir uns definitiv in einer Grundgesamtheit. Was soll ich da noch erwartungstreu schätzen? --Bachmai (Diskussion) 17:02, 15. Sep. 2013 (CEST)
Andererseits sind natürlich "Erwartungstreue" und "Fairness bei verschiedenen N oder n" einander verwandte Begriffe. Insofern liegen uns allen dieselben Gedanken bei der Argumentation, was die Rechtfertigung von n-1 betrifft, zugrunde. --Bachmai (Diskussion) 17:14, 15. Sep. 2013 (CEST)

Änderung durch 93.133.74.78, 19. August 2008

Es gibt zwei Artikel, nämlich Varianz für die Varianz der Grundgesamtheit (n im Nenner), und empirische Varianz für den Schätzer der Varianz der Grundgesamtheit (n-1 im Nenner). Ob jetzt der Schätzer mit n-1 im Nenner Stichprobenvarianz oder (verdoppelt?) korrigierte Stichprobenvarianz heißt, ist eine Frage der Notation (ist die tatsächlich so uneinheitlich?); inhaltlich hat die neue Version jedenfalls Varianz und empirische Varianz vermischt; daher zunächst einmal revert. --NeoUrfahraner 07:11, 19. Aug. 2008 (CEST)

Dass die Grundgesamtheits-Varianz "n" (ich nenne es Groß-"N") im Nenner hätte, wird von manchen, aber bei Weitem nicht allen Autoren vertreten. Dass dies aber nicht sinnvoll ist, habe ich im Journal-Artikel The striking criterion whether variance calculation requires dividing the sum of squares by the number of summands or by that number less one) gezeigt. Zusammenpassen tut nicht das (Grundgesamtheit,Stichprobe)-Paar (N, n-1), auch nicht (N, n), sondern nur das Paar (N-1, n-1), denn die Stichprobenvarianz mit n-1 als Divisor schätzt eben die Varianz einer endlichen Grundgesamtheit nur dann erwarungstreu, wenn man auch bei deren Definition N-1 und nicht N, die Zahl der Elemente der Grundgesamtheit, als Divisor nimmt (ein Beweis dafür steht auf Seite 8 des zitierten Journal-Artikels). --Bachmai
Auch hier nochmal: Die Wikipedia hat nicht zu beurteilen, ob etwas sinnvoll oder nicht sinnvoll ist. Die Wikipedia hat nur wertneutral den Status Quo wiederzugeben.
Und es gilt: Die korrigierte Stichprobenvarianz (mit n-1) schätzt die Varianz der Grundgesamtheit (mit N) erwartungstreu. Siehe hierzu: Erwartungstreue Schätzung der Varianz der Grundgesamtheit. --Eulenspiegel1 (Diskussion) 18:19, 15. Sep. 2013 (CEST)
Nachdem ein Google-Test ziemlich eindeutige Ergebnisse für korrigierte Stichprobenvarianz liefert, während "Stichprobenvarianz" (http://www.franke-rep.de/Statistik-B_Teil3.pdf) und "empirische Varianz" (siehe oben Hans Haas, 6. Feb. 2007) teilweise auch die Variante mit 1/n im Nenner bezeichnet wäre es evtl. sinnvoll, den Artikel auf "korrigierte Stichprobenvarianz" umzunennen. Meinungen dazu? --NeoUrfahraner 10:46, 19. Aug. 2008 (CEST)
Für korrigierte Strichprobenvarianz spricht außerdem, dass die Bezeichnung unzweideutig ist. --Erzbischof 11:00, 19. Aug. 2008 (CEST)
PS: Vielleicht sollte aber sowohl Fall 1/n und Fall 1/(n-1) im gleichen Artikel angehandelt werden.--Erzbischof 11:42, 19. Aug. 2008 (CEST)
Meinst Du, "Varianz" und "Empirische Varianz" zusammenlegen? Das hatten wir bis 6. Nov 2006, dann hat Benutzer:Chrisqwq die Artikel getrennt. Diese Trennung war zwar meines Erachtens voreilig; inzwischen sind aber beide Artikel in so einem Zustand, dass mir eine Zusammenlegung nicht mehr sinnvoll erscheint. --NeoUrfahraner 12:38, 19. Aug. 2008 (CEST)
Das meinte ich nicht. Die Trennung zwischen Varianz einer Zufallsvariablen und Stichprobenvarianzen scheint mir auch sinnvoll. Aber ich glaube, wir sollten die beiden oben in der Diskussion angegebenen Definitionen im gleichen Artikel abhandeln, vielleicht ähnlich wie im [Mathworld-Artikel "Sample Variance"].--Erzbischof 13:05, 19. Aug. 2008 (CEST)
"The distinction between   and   is a common source of confusion, and extreme care should be exercised when consulting the literature to determine which convention is in use". Um eben klar zu machen, welche Konvention benutzt wird, braucht man meines Erachtens einen eigenen Artikel für  ; ein gemeinsamer Artikel für   und   würde nur zu Verlinkungen führen, die a common source of confusion sind. --NeoUrfahraner 13:26, 19. Aug. 2008 (CEST)
An das Verlinkungsproblem habe ich nicht gedacht. Langsam kristallisiert sich die Sache heraus. Dann sollten wir auch Namen wählen, bei denen es schwer fällt, das falsche darunter zu verstehen, und bei Empirische Varianz ist das nicht der Fall. Also verschieben. --Erzbischof 13:35, 19. Aug. 2008 (CEST)
OK, so weit sind wir uns einig. Ich warte noch weitere Meinungen ab; wenn nichts kommt, werde ich am Donnerstag den Artikel umbenennen. --NeoUrfahraner 13:52, 19. Aug. 2008 (CEST)
Hi, gute Diskussion. Es sollte dann noch klargestellt werden was Stichprobenvarianz im Gegensatz zu Korrigierte Stichprobenvarianz ist (wenn diese Unterscheidung sinnvoll ist). Sollte der Artikel dann nicht eher Stichprobenvarianz heißen und als (großen) Unterabschnitt Korrigierte Stichprobenvarianz beinhalten? Und: Varianz einer Zufallsvariablen redirecte ich mal auf Varianz. --source 12:20, 20. Aug. 2008 (CEST)
Das Problem ist, dass weder "Stichprobenvarianz" noch "empirische Varianz" eindeutige Begriffe sind, in der Literatur finden sich sowohl die   als auch die   Variante. Siehe oben: "ein gemeinsamer Artikel für   und   würde nur zu Verlinkungen führen, die a common source of confusion sind." Der Redirect Varianz einer Zufallsvariablen auf Varianz ist IMHO in Ordnung. --NeoUrfahraner 12:41, 20. Aug. 2008 (CEST)

Bei der Gelegenheit mache ich auf http://de.wikipedia.org/w/index.php?title=Standardabweichung&diff=49712449&oldid=48763815 aufmerksam – das Beispiel und die Definition zur empirischen Standardabweichung (zur korrigierten Stichprobenvarianz) dort gehört eigentlich auch in den zukünftigen Artikel hier (oder wollen wir vier Artikel: emp. Standartabweichung vs. Varianz, korrigiert vs. nichtkorrigiert!) --Erzbischof 13:33, 20. Aug. 2008 (CEST)

Da anscheinend keine Einsprüche kommen, habe ich den Artikel umbenannt. (nicht signierter Beitrag von NeoUrfahraner (Diskussion | Beiträge) 08:49, 21. Aug. 2008)