Diskussion:Mehrdimensionale Normalverteilung
Zum Archiv |
Wie wird ein Archiv angelegt? |
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. |
Weitere Diskussionsanregungen
Bearbeiten- Die Konvention, dass mehrdimensionale Zufallsvariablen klein und unterstrichen geschrieben werden, halte ich für überflüssig und entspricht auch nicht der Verwendung im Artikel Zufallsvariable.
- Da man bei der mehrdimensionalen Normalverteilung mit singulärer Kovarianzmatrix keine Dichte hat, muss der Abschnitt anders formuliert werden. Entweder lässt man solche Fälle nicht zu und nimmt die Dichte als Definition, oder man muss die Definition anders machen, z.B. "jede Linearkombination der Komponenten ist normalverteilt", siehe die englische Fassung des Artikels über die mehrdimensionalen Normalverteilung.
- Das Beispiel Apfelbaumplantage: hier fände ich es angebracht, auf den Unterschied von Modell und zu modellierender Realität hinzuweisen. Beispielsweise sind Größe und Ertrag stetige Werte, während Anzahl der Blätter erstmal ein diskretes Merkmal ist. Bei der Anzahl der Blätter soll der Mittelwert 20000 sein und die Standardabweichung 15000. Da die Blattanzahl nicht negativ werden kann, müsste man also eine "abgeschnittene Normalverteilung" postulieren. Das lässt sich natürlich durch Änderung der Parameter beheben, macht aber klar, warum ich hier Vorbehalte habe.
- Die Fortführung des Beispiels wäre wohl besser in einem Artikel aufgehoben, in dem auch auf Schätzer eingegangen wird, da hier ja diese Schätzer ausgerechnet werden.
-- zitiere_kinsey 20:51, 12. Nov. 2009 (CET)
- Der dritte Punkt ist wichtig und bisher nicht im Artikel berücksichtigt.--Sigma^2 (Diskussion) 18:43, 8. Aug. 2023 (CEST)
Beispiel Rechnung
BearbeitenWie kommt man in dem Beispiel (Blätter, Ertrag, Höhe) auf die Werte für die Kovarianz und Korrelationskoeffizienten? Wenn das berechnete Werte sind, wäre es gut eine Berechnung daneben zu schreiben. Wenn das einfach gewählte Beispielwerte sind, dann sollte das deutlicher aus dem Text hervorgehen. (nicht signierter Beitrag von 2A01:5C0:1A:2391:D4C6:7785:FDA3:8F4 (Diskussion | Beiträge) 22:23, 15. Nov. 2015 (CET))
Streuung
BearbeitenSchön, dass nun Angaben zur Streuung hier zu finden sind. Vielleicht können ja noch die Formeln zur Berechnung der Prozente als Funktion von und zurück auch wieder dazu.--M.J. (Diskussion) 21:21, 5. Jul. 2020 (CEST)
- Danke für deine Aufmerksamkeit, die Formeln wieder zu reaktivieren. Vielleicht wäre es aber noch gut, die Notation der Integrale zu erklären. Ein Integral bis r=1sigma, r=2sigma,... meint das Integral bis zur (mehrdimensionalen) 1-fachen, 2-fachen ... Standardabweichungsellipse durchzuführen. Auch die Funktionaldeterminante r'^{p-1} wäre besser erklärt. Hast du eine Idee, wie man das am Besten darstellt? biggerj1 (Diskussion) 01:20, 21. Jul. 2020 (CEST)
- Ich habe das Vorgehen jetzt mit einer Hauptachsentransformation und Normierung beschrieben, für eine Funktionaldeterminante bin ich nicht Mathematiker genug.--M.J. (Diskussion) 23:09, 21. Jul. 2020 (CEST)
Parametrisierung der Kovarianzellipse
BearbeitenWas ist das Ziel von diesem Abschnitt? Soweit ich ihn verstehe, halte ich ihn für überflüssig und teilweise falsch.
Das eine Hauptachsentransformation eine Vereinfachung bringt, wird im Abschnitt zuvor schon vorausgesetzt und auch hier dann postuliert, ohne zu sagen, worin die Vereinfachung besteht. Die Variablenbenamung stimmt nicht mit dem vorhergehenden überein. Es ist auf drei Dimensionen beschränkt (warum nicht zwei, warum nicht n?). Ein "Vertauschen der Halbachsen" ist etwas anderes, als deren Kehrwert zu nehmen. Wenn man das macht, würde ich das Ergebnis vielleicht "Ellipsoid konstanter Wahrscheinlichkeitsdichte" nennen und nicht "Konzentrationsellipsoid". Kann der Absatz gelöscht werden, oder gibt es Fürsprecher, die ihn so formulieren können, dass man Gewinn daraus ziehen kann? Im Moment favorisiere ich löschen, weil mir für letzteres eben das Erklärungsziel fehlt. --M.J. (Diskussion) 22:21, 3. Sep. 2021 (CEST)
- Hiermit gelöscht.--M.J. (Diskussion) 23:30, 10. Sep. 2021 (CEST)
symmetrisch?
BearbeitenIm Artikel wird nur gefordert, dass positiv semidefinit ist (positiv definit, wenn eine Lebesgue-Dichte existieren soll). Nach unserem Artikel Definitheit ist es auch nicht-symmetrischen Matrizen möglich, positiv (semi-)definit zu sein (siehe insbesondere Definitheit#Symmetrischer Anteil bei allgemeinen Matrizen). Im hiesigen Artikel wird von Symmetrie von hingegen nur im Abschnitt Erzeugung mehrdimensionaler, normalverteilter Zufallszahlen gesprochen. Muss im Allgemeinen symmetrisch sein oder sind auch nicht-symmetrische Matrizen erlaubt? --2A02:8108:50BF:C694:F040:2AF6:F56E:D13E 17:04, 4. Aug. 2022 (CEST)
- muss symmetrisch sein. --Tensorproduct (Diskussion) 17:14, 4. Aug. 2022 (CEST)
- Auf welche Stelle im Artikel bezieht sich der Hinweis? Wo wird gefordert?--Sigma^2 (Diskussion) 08:37, 16. Aug. 2023 (CEST)
Beispiel
Bearbeiten"Fasst man die drei Zufallsvariablen im Zufallsvektor zusammen, ist mehrdimensional normalverteilt. Dies gilt allerdings nicht im Allgemeinen"
Es wäre schön, wenn im Artikel noch angegeben würde, wann durch das Zusammenfassen solcher normalverteilter Zufallsvariablen ein mehrdimensional normalverteilter Zufallsvektor entsteht. Wie wurde das Beispiel konstruiert? Ich gehe davon aus, dass die Charakterisierung der mehrdimensionalen Normalverteilung verwendet wurde, nach der alle Linearkombinationen der Komponenten wieder normalverteilt sein müssen. Aber ganz genau wüsste ich nicht, wie man ein zweites Beispiel konstruiert. --Anthroporraistes (Diskussion) 22:03, 6. Mär. 2024 (CET)
- Ach, das Beispiel. Es ist problematisch. Da werden drei nichtnegative Variablen – darunter eine ganzzahlige Variable – als normalverteilte Zufallsvariablen modelliert. Damit gibt es mit positiver Wahrscheinlichkeit Bäume mit negativer Höhe, negativem Ertrag und nichtganzzahliger und negativer Anzahl von Blättern. Wenn man schon über diese Hürden gesprungen ist, kann man auch einfach annehmen, dass eine gemeinsame multivariate Normalverteilung vorliegt. Grundsätzlich gibt es unendlich viele dreidimensionale Wahrscheinlichkeitsverteilungen mit normalverteilten Randverteilungen. --Sigma^2 (Diskussion) 09:50, 7. Mär. 2024 (CET)
- Hmm, ja, daran habe ich noch gar nicht gedacht. Das scheint mir aber ein prinzipielles Problem zu sein. Keine der typischerweise statistisch behandelten Größen kann strenggenommen eine Verteilung mit Träger haben. Wenn man das Gewicht bei der Geburt heranzieht, besteht z. B. auch positive Wahrscheinlichkeit, dass man negatives Gewicht hat, und auch, mit sehr kleiner Wahrscheinlichkeit, dass der Neugeborene mehr wiegt als die Erde. Vielleicht wird in der Praxis eine gestutzte Normalverteilung herangezogen - oder die irrelevanten Realisierungen verworfen. Der Punkt, dass man es einfach annimmt, finde ich okay, aber mir bleibt die Frage offen, warum durch diese Wahl an normalverteilten Zufallsvariablen mitsamt ihrer Korrelationen eine multivariate Normalverteilung entsteht. --Anthroporraistes (Diskussion) 11:26, 7. Mär. 2024 (CET)
- Die Annahme einer multivariaten Normalverteilung ist eine zusätzliche Annahme oder besser gesagt weitergehende Annahme. Aus der Annahme der multivariaten Normalverteilung für einen Zufallsvektor folgt, dass die Komponenten normalverteilt sind, die Umkehrung gilt aber nicht. Aus der Annahme normalverteilter Komponenten und gegebener Korrelationen entsteht keine multivariate Normalverteilung auf irgendeine Art. Zu gegebenen univariaten Normalverteilungen für die Ränder und gegebener Korrelationsmatrix existieren vielmehr unendliche viele multivariate Verteilungen, unter denen die multivariate Normalverteilung eine spezielle ist, die per Annahme postuliert werden kann. Das wird in vielen Anwendungsbereichen der Statistik gerne und häufig gemacht, auch wenn - wie im Beispiel - die Variablen eigentlich nicht passen und es erst recht keine inhaltliche substanzwissenschaftliche Begründung für das Vorliegen einer multivariaten Normalverteilung gibt. Die Annahme der multivariaten Normalverteilung ist im Beispiel nicht sinnvoll. Warum sollten Linearkombinationen der Größe und der Blätterzahl normalverteilt sein? Für die beiden Variablen Größe und Blätterzahl ist eher eine nichtlineare (quadratische oder kubische) Zunahme der Blätterzahl mit der Größe plausibel, die a priori eine bivariate Normalverteilung als geeignetes Modell für den Zusammenhang zwischen Blätterzahl und Größe ausschließt. Genauso unplausibel ist es, den Zusammenhang zwischen Ertrag und Höhe durch ein bivariate Normalverteilung darzustellen. Damit ist auch eine trivariate Normalverteilung ein ungeeignetes Modell für die drei Variablen, weil die trivariate Normalverteilung bivariate Normalverteilungen für jedes Paar impliziert. Das Beispiel ist schlecht. --Sigma^2 (Diskussion) 13:56, 7. Mär. 2024 (CET)
- Ahh, ich verstehe. Ich weiß, dass aus unabhängigen, normalverteilten Zufallsvariablen X,Y folgt, dass (X,Y) bivariat normalverteilt ist. Dann sind nämlich auch alle Linearkombinationen normalverteilt - wegen der Reproduktivitätseigenschaft. Das könnte ein besseres Beispiel geben. Ich dachte, es gäbe vielleicht einen allgemeineren Zusammenhang, wann aus X1,...,X_n normalverteilt (zu unterschiedlichen Parametern) durch (X1,...,Xn) ein mehrdimensional normalverteilter Zufallsvektor wird. LG --Anthroporraistes (Diskussion) 14:47, 7. Mär. 2024 (CET)
- Die Annahme einer multivariaten Normalverteilung ist eine zusätzliche Annahme oder besser gesagt weitergehende Annahme. Aus der Annahme der multivariaten Normalverteilung für einen Zufallsvektor folgt, dass die Komponenten normalverteilt sind, die Umkehrung gilt aber nicht. Aus der Annahme normalverteilter Komponenten und gegebener Korrelationen entsteht keine multivariate Normalverteilung auf irgendeine Art. Zu gegebenen univariaten Normalverteilungen für die Ränder und gegebener Korrelationsmatrix existieren vielmehr unendliche viele multivariate Verteilungen, unter denen die multivariate Normalverteilung eine spezielle ist, die per Annahme postuliert werden kann. Das wird in vielen Anwendungsbereichen der Statistik gerne und häufig gemacht, auch wenn - wie im Beispiel - die Variablen eigentlich nicht passen und es erst recht keine inhaltliche substanzwissenschaftliche Begründung für das Vorliegen einer multivariaten Normalverteilung gibt. Die Annahme der multivariaten Normalverteilung ist im Beispiel nicht sinnvoll. Warum sollten Linearkombinationen der Größe und der Blätterzahl normalverteilt sein? Für die beiden Variablen Größe und Blätterzahl ist eher eine nichtlineare (quadratische oder kubische) Zunahme der Blätterzahl mit der Größe plausibel, die a priori eine bivariate Normalverteilung als geeignetes Modell für den Zusammenhang zwischen Blätterzahl und Größe ausschließt. Genauso unplausibel ist es, den Zusammenhang zwischen Ertrag und Höhe durch ein bivariate Normalverteilung darzustellen. Damit ist auch eine trivariate Normalverteilung ein ungeeignetes Modell für die drei Variablen, weil die trivariate Normalverteilung bivariate Normalverteilungen für jedes Paar impliziert. Das Beispiel ist schlecht. --Sigma^2 (Diskussion) 13:56, 7. Mär. 2024 (CET)
- Hmm, ja, daran habe ich noch gar nicht gedacht. Das scheint mir aber ein prinzipielles Problem zu sein. Keine der typischerweise statistisch behandelten Größen kann strenggenommen eine Verteilung mit Träger haben. Wenn man das Gewicht bei der Geburt heranzieht, besteht z. B. auch positive Wahrscheinlichkeit, dass man negatives Gewicht hat, und auch, mit sehr kleiner Wahrscheinlichkeit, dass der Neugeborene mehr wiegt als die Erde. Vielleicht wird in der Praxis eine gestutzte Normalverteilung herangezogen - oder die irrelevanten Realisierungen verworfen. Der Punkt, dass man es einfach annimmt, finde ich okay, aber mir bleibt die Frage offen, warum durch diese Wahl an normalverteilten Zufallsvariablen mitsamt ihrer Korrelationen eine multivariate Normalverteilung entsteht. --Anthroporraistes (Diskussion) 11:26, 7. Mär. 2024 (CET)
Beispiel zu Stichproben
BearbeitenDieses Beispiel hat nichts mit der multivariaten Normalverteilung zu tun. Es zeigt, wie man aus einer Datenmatrix Erwartungswerte, Kovarianzen und Korrelationen schätzen kann. --Sigma^2 (Diskussion) 14:03, 7. Mär. 2024 (CET)