Diskussion:Streuungsmaß (Statistik)

Letzter Kommentar: vor 5 Monaten von Biggerj1 in Abschnitt Deskriptive versus induktive Statistik
Zum Archiv
Wie wird ein Archiv angelegt?
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.

Quartil oder Quantil

Bearbeiten

heisst es jetzt quartiel oder quantiel? Weil einmal steht hier Quartielabstand und dann Quantielabstand.

K-egg 10:10, 16. Nov 2005 (CET)
es muss Quartiel heissen K-egg 10:22, 2. Dez 2005 (CET)
Das Quartiel ist eine Unterart von Quantielen. Ein Quantiel ist irgendein bestimmter Anteil von Messwerten, ein Quartiel sind 25 % der Messwerte. --217.82.99.69 15:04, 4. Sep. 2008 (CEST)Beantworten
Ob Quartiel oder Quantiel, Hauptsache mit Stiel. -- Philipendula 18:53, 4. Sep. 2008 (CEST)Beantworten
Nein, ein p-Quantil ist kein "Anteil von Messwerten", sondern eine Zahl, durch die die Messwerte in zwei Anteile mit (im Idealfall) den relativen Häufigkeiten p und 1-p aufgeteilt werden. Quartile sind die drei (!) p-Quantile für  . Durch die drei Quartile werden die Messwerte in vier Gruppen aufgeteilt. Diese vier Gruppen werden von Anwendern nicht selten fälschlich als Quartile bezeichnet. --Sigma^2 (Diskussion) 11:08, 25. Aug. 2023 (CEST)Beantworten

Wahrscheinlichkeitstheorie raus

Bearbeiten

Ich würde gerne den Wahrscheinlichkeitstheoretischen teil entfernen, also nurnoch Streuungsmaße von Stichproben und nichtmehr von Zufallsvariablen behandeln. Das erhöht die Lesbarkeit und hilft die Unterschiede gleichlautender Begriffe klarer zu erkennen. Außerdem sind die Wahrscheinlichkeitstheoretischen Streuungsmaße unter Dispersionsmaß (Stochastik) abgehandelt. Gibt es Meinungen? --NikelsenH (Diskussion) 22:26, 26. Apr. 2017 (CEST)Beantworten

Ja, dass wäre sehr vernünftig, es entweder rauszunehmen, oder klarzustellen, dass es nur eine Parallele ist.--Sigma^2 (Diskussion) 10:57, 25. Aug. 2023 (CEST)Beantworten
Ich habe die Konzepte der Wahrscheinlichkeitstheorie jetzt zunächst in einem eigenen Abschnitt gesammelt. Was damit passiert, hängt davon ab, was schon in anderen Artikeln steht und was noch von den früheren Autoren an Belegen für mehrere unbelegte Aussagen beigebracht wird. --Sigma^2 (Diskussion) 13:06, 25. Aug. 2023 (CEST)Beantworten
Immer noch unbelegte (allerdings vermutlich richtige) Aussagen aus dem Artikel, die so noch nicht in den Artikel Dispersionsmaß_(Stochastik) übernommen werden können:
  • Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft   für alle reellen  , mit monoton fallender Dichte für  , gilt  . Für die stetige Gleichverteilung gilt das Gleichheitszeichen.
  • Im Fall der Normalverteilung besteht der Zusammenhang
 
zur Standardabweichung. Dabei bezeichnet   das 0,75-Quantil der Standardnormalverteilung.

  • Für die Normalverteilung gilt
 
Für symmetrische Verteilungen stimmen Median (falls dieser eindeutig ist) und Erwartungswert (falls dieser existiert und endlich ist) überein, sodass in diesem Fall   gilt.
Ich halte die unbelegte Aussage des letzten Satzes für falsch. Die nichtnegative Zufallsvariable   hat keine symmetrische Verteilung, auch wenn die Verteilung von   symmetrisch ist, so dass sich der Erwartungswert und der Median von   (außer in degenerierten Spezialfällen) unterscheiden.
--Sigma^2 (Diskussion) 17:05, 22. Mai 2024 (CEST)Beantworten

Deskriptive versus induktive Statistik

Bearbeiten

Zunächst erhebt der Artikel zwar den Anspruch, etwas zur deskriptiven Statistik beizutragen, gleitet aber ständig in die induktive Statistik ab. Bereits in der Einleitung steht etwas von Stichprobe, ein Kernbegriff der induktiven Statistik. Beschreibende (deskriptive) Statistik kann auf Stichprobenwerte, aber auch auf andere Messwerte und Werte beliebiger (Grund)-Gesamtheiten angewendet werden. Die aus der induktiven Statistiken stammenden Formeln werden hier als Varianten dargestellt, sie haben aber nichts mit beschreibender Statistik zu tun, sondern sind Korrekturen für den Spezialfall, dass in der induktiven Statistik ein unbekannter Parameter aus der Grundgesamtheit mit einer statistischen Kennzahl der Stichprobe geschätzt werden soll. Leider zieht sich diese Konfusion durch viele Wikipedia-Artikel zur Statistik.--Sigma^2 (Diskussion) 11:32, 25. Aug. 2023 (CEST)Beantworten

Ist teilweise überarbeitet.--Sigma^2 (Diskussion) 20:55, 21. Mai 2024 (CEST)Beantworten
(aus Diskussion unten) Wäre es möglich einen Abschnitt mit einer expliziten Abgrenzung zu schreiben? Offensichtlich impliziert das Stichwort "deskriptive" Statistik für den Statistiker viel, für den Nicht-Statistiker jedoch nicht so viel :) Aus der Ausführung von Sigma^2 verstehe ich, dass man deskriptive Statistiken einfach berechnet (wie auch immer) ohne dabei über Verteilungen oder Stichproben nachzudenken. Offensichtlich werden ähnliche Formeln dann jedoch in der induktiven Statistik benutzt um aus Stichprobenrealisierungen auf Parameter (der Verteilung aus der diese stammen) zurückzuschließen. Könnte man in diesem Sinne einen abgrenzenden Abschnitt hinzufügen? Ketzerische Frage (für mein Verständnis): Wenn die berechneten Kennzahlen rein deskriptiv für die Vorliegenden Werte sind (und nicht zum Schätzen von Verteilungsparametern), warum macht man das eigentlich? ok, man aggregiert die vorliegenden Werte (wie in einer Aggregierungsfunktion, aber sonst...? biggerj1 (Diskussion) 21:03, 21. Mai 2024 (CEST)Beantworten
Ich nummeriere, damit eine Bezugnahme auf einzelne Aussagen möglich ist, und schreibe ausführlich, weil es viele Wikipedia-Artikel betrifft:
  1. Ich habe einen eigenen Hauptabschnitt Streuungsmaßzahlen in der schließenden (induktiven) Statistik angelegt und teilweise befüllt. Da Stichprobenwerte ein Spezialfall von Beobachtungswerten oder Daten sind, ist Abgrenzung im strengen Wortsinn nicht möglich. Alle Methoden der deskriptiven Statistik können auf Stichprobenwerte angewendet werden. Bei Stichprobenwerten gibt es häufig – aber nicht immer – die zusätzliche Interpretation als Schätzwert für eine analoge Kennzahl einer realen endlichen oder fiktiven Grundgesamtheit.
  2. Außerhalb der Physik und weniger anderer naturwissenschaftlicher Disziplinen ist die Welt voller Daten, die weder Messwerte im Sinn des Artikels Messwerte noch Stichprobenergebnisse im Sinn der Stichprobentheorie der Statistik sind. Man sollte dann von Daten oder Beobachtungswerten sprechen.
  3. Statistische Methodik wird als Hilfswissenschaft in allen empirisch arbeitenden Wissenschaftsbereichen verwendet.
  4. Beispiel: Aus der Einkommensteuerstatistik liegen die steuerpflichtigen Einkommen von 40 Millionen Einkommensteuerpflichtigen im Jahr 2020 vor. Stell Dir vor: Dir stehen die 40 Millionen Beobachtungswerte   mit   zur Verfügung und Du musst einen kurzen Bericht über typische Einkommenshöhen, Einkommensverteilung und -konzentration erstellen. Bereits ein elementar einführendes Lehrbuch zur beschreibenden Statistik[1] hilft Dir weiter und empfiehlt zunächst: Erstellung von absoluten und relativen Häufigkeitsverteilungen mit klassierten Daten, Erstellung eines Histogramms, Bestimmung der Spannweite, von Quartilen und Dezilen, Erstellung eines Boxplots, Berechnung von Median, Mittelwert und Standardabweichung, Charakterisierung der Schiefe durch Schiefemaße und Charakterisierung der Einkommenskonzentration durch Konzentrationsmaße, z. B. den Ginikoeffizienten, und evtl. der (höchstwahrscheinlich vergebliche) Versuch, irgendeine der üblichen Verteilungen mit wenigen Parametern an die Daten anzupassen (historisch wurde allerdings die verschobene Pareto-Verteilung im Zusammenhang mit der Untersuchung von Einkommensverteilungen erfunden und verwendet), usw.
  5. Diese gesamte Auswertung hat nichts damit zu tun, dass diese Daten in irgendeinem Sinn als eine Stichprobe aus einer Grundgesamtheit interpretiert werden oder dass Wahrscheinlichkeiten oder Wahrscheinlichkeitsverteilungen eine Rolle spielen.
  6. Nutzlos ist die deskriptive Statistik also nicht. Sie hilft Daten zu aggregieren, zu interpretieren, graphisch darzustellen und sie hilft als exploratives Verfahren zur Hypothesengewinnung, vor allem bei mehrdimensionalen Daten. Man lernt so etwas in einer elementaren Einführung in die deskriptive Statistik, fortgeschrittener ist die Explorative Datenanalyse. Dazu lernt man verständlicherweise weniger in Disziplinen wie Physik, in denen es nur Messungen gibt, die – via angenommenem Messfehler – als Stichprobenwerte interpretiert werden. Die klassische Grundausbildung in Statistik besteht aus drei einführenden Teilen (in dieser Reihenfolge) Beschreibende Statistik, Wahrscheinlichkeitsrechnung, Schließende Statistik, z. B. in drei jeweils zweistündigen Vorlesungen + Übungen im ersten und zweiten Semester.
  7. Der Fall, dass Daten als Stichprobenwerte im Sinn der schließenden Statistik oder sogar als i.i.d.-Stichprobe interpretiert werden können, ist nicht der Normalfall, sondern eher der Ausnahmefall. Stichproben aus endlichen Grundgesamtheiten mit Zurücklegen sind im wesentlichen eine gedankliches Konstrukt. Ein solches Vorgehen gibt es in der Realität wohl kaum, auch nicht in der amtlichen Statistik. Sieh dir mal ein Statistisches Jahrbuch von Deutschland oder der EU an und bedenke die Verwendung solcher Daten in den Sozial- und Wirtschaftswissenschaften und an die Auswertung mehr oder weniger willkürlicher Befragungen im Marketing, Politologie, Soziologie usw.
--Sigma^2 (Diskussion) 12:04, 23. Mai 2024 (CEST)Beantworten
Leider habe ich deine Antwort erst jetzt gesehen. Besten Dank für deine ausführliche (und sehr geduldige) Antwort :) Ich danke Dir! Ich verstehe was du sagst und, dass Leute hier wohl bei der deskriptiven Beschreibung verharren (z.B. ist eine Vollerhebung der Daten aller Deutschen keine Stichprobe aus einer Verteilung der Deutschen, denn es gibt ja nur so-und-so viele Deutsche...) daher wäre eine rein deskriptive Sichtweise in dieser Betrachtung angebracht ...Allerdings gibt es für mich als Physiker doch auch andere "sinnvolle" Deutschlands über denen wir eine Vollerhebung der Daten vollziehen könnten - nämlich die Deutschlands der Parallelwelten (aus denen das konkrete Deutschland welches wir kennen nur eine Realisierung wäre). Dieser Gedanke der Parallelwelten kann auch beim Bootstrapping in Form der "Bootstrap-Welt" wiedergefunden werden: https://books.google.de/books?id=8VNDAAAAQBAJ&pg=PA413 . Ich halte diese Betrachtung für grundsätzlich sinnvoll (dann wäre jede Beobachtung lediglich eine Realisierung aus der Verteilung der Parallelwelten). Ich akzeptiere allerdings, dass andere Personen hier auch andere Sichtweisen haben mögen (da die Parallelwelten ja nie beobachtet werden können und somit hypothetisch bleiben)... Konkret wäre das Deutschland welches wir kennen, dann nur eine Realisierung aus der Verteilung der möglichen Parallelwelten. Die Verteilung der Parallelwelten wäre dann durch Bootstrapping zu approximieren... hier wird es zwar philosophisch, falls du dennoch einen groben Denkfehler in meiner Sichtweise siehst, wäre ich dankbar, wenn du mich darauf aufmerksam machst oder mir Feedback gibst ob diese Meinung so vertretbar wäre (wenn nicht, warum nicht?) :) biggerj1 (Diskussion) 22:37, 30. Mai 2024 (CEST)Beantworten
PS: ich beabsichtige nicht den Artikel in dieser Hinsicht zu erweitern, sondern will einfach mehr erfahren. --biggerj1 (Diskussion) 22:43, 30. Mai 2024 (CEST)Beantworten
  1. Z. B. Karl Mosler, Friedrich Schmid: Beschreibende Statistik und Wirtschaftsstatistik. 4. Auflage. Springer, Berlin / Heidelberg 2009, ISBN 978-3-642-01556-4.