Diskussion:Box-Plot
Füge neue Diskussionsthemen unten an:
Klicke auf , um ein neues Diskussionsthema zu beginnen.Ausschließlich kardinalskaliert?
BearbeitenEin Dozent erwähnte, dass sie ebensogut für ordinalskalierte Daten mit ausreichend vielen Ausprägungen sinnvoll sind. Der englische Wiki beschreibt dazu grouped numerical data, was dem nicht widerspricht.
--2A02:8071:B390:2201:D81A:3660:3F8C:4C14 05:47, 28. Mär. 2015 (CET)
- Dem stimme ich zu: ich kenne keine Literatur, bei welche die Daten kontinuierlich = kardinalskaliert sein müssen. Bei ordinalskalierten Daten hat man meist geklumpte Daten (s.u. mein Kommentar bei Median), hier muss man für Quartilenberechnungen die exaktere Interpolationsmethode verwenden. PPilz (Diskussion) 16:26, 7. Apr. 2015 (CEST)
Ordinalskaliert bedeutet, dass die daten beliebigen monotonen Transformationen unterworden werden dürfen. Abstände haben dann definitionsgemäß keine Bedeutung. Schiefe kann nicht interpretiert werden. Die Lage des Medians zwischen dem unteren und oberen Quantil kann nicht interpretiert werden. Das 1,5-fache eines Quartilabstandes ist für ein ordinales Merkmal völlig sinnlos. Alle Interpretationen, die auf Längen, Abständen usw. beruhen sind für eine ordinales Merkmal sinnlos. Hier wurde schon im ersten Satz Theoriefindung betrieben oder man ist auf qualitativ schlechte Quellen (oder Dozenten) hereingefallen. Im Buch von Mosler und Schmid, das im ersten Satz des Artikels referenziert ist, ist Boxplot nicht umsonst ein Unterabschnitt im Abschnitt Metrisch skalierte Daten. --Sigma^2 (Diskussion) 17:29, 5. Okt. 2023 (CEST)
Schiefe beim Boxplott
BearbeitenSagt nicht auch die Lage der Box etwas über die Schiefe aus?
Zitat aus "Deskriptive Statistik" von Prof. Dr. Martin Missong und Prof. Stefan Mittnik:
...relativ gering[e] Abstände zwischen Minimum, unterem Quartil und Median, verglichen mit den relativ großen Abständen zwischen Median, oberem Quartil und Maximum, spiegeln die "linkssteile" bzw. "rechtsschiefe" Verteilung [...] wieder.
- Tun sie, aber wie im Artikel bereits beschrieben ist die Lage des Medians maßgeblich und dem widersprichst du hier auch nicht. --jkohl 09:39, 12. Aug. 2008 (CEST)
Unklarheit über Bestimmung der Quartile
BearbeitenBestimmung der Quartile
Version 1: (Schulbuch): Das untere Quartil ist der Median der unteren Hälfte. (Was genau ist bei einer ungeraden Anzahl die "untere Hälfte"? Ich schlage vor, man entfernt den Median, damit ist "die untere Hälfte" wieder genau definiert. Es ist sogar ganz elegant, denn da bei einer geraden Anzahl der Median keinen eindeutigen "Träger" hat, entfernt man hier eben nichts.)
weitere Versionen: 0,25 der Anzahl der Daten, und man nimmt den Wert, der am nächsten dran liegt, aber es gibt auch noch weitere. Torika 15:08, 14. Apr 2008
Diese Aussage ist falsch, das Perzentil P25 ist nicht der Median der unteren Hälte wenn von der Verteilung innerhalb der Whisker gesprochen wird. Das Perzentil P25 muss nicht Teil der Messwerte sein, ebenso der Median. Dies ist in, im Fall des Median, Verteilungen mit einer geraden Anzahl Messwerte der Fall.
Schulbuch ist falsch, da es vereinfacht. Man macht eine kumulative Häufigkeitsverteilung der Daten, und liest bei 25% und 75% ab, wo genau die Quartilen liegen PPilz (Diskussion) 16:40, 7. Apr. 2015 (CEST)
Ausreisser
BearbeitenDie Werte ausserhalb der Whiskers sind keine Ausreisser. Es gibt von Gather einen Aufsatz der Ausreisser mit Verteilungsannahmen verkoppelt und dass scheint mir ein besserer Ansatz zu sein. Besser wäre es daher von Extremwerten zu sprechen. --Sigbert 21:00, 10. Dez. 2008 (CET)
- Wo ist dieser Artikel? Würde mich interessieren. Die übliche Regel für Ausreißer bei Box-Whisker-Plots, also ein fixes Maß für Ausreißer = 1.5 IQR, wie von Tukey damals vorgeschlagen, ist sicherlich nicht sinnvoll. Ein Ausreißermaß muss vom Stichprobenumfang abhängen. Zitat aus https://en.wikipedia.org/wiki/Outlier:
"...in large samples, a small number of outliers is to be expected (and not due to any anomalous condition)." PPilz (Diskussion) 16:41, 7. Apr. 2015 (CEST)
Die Abbildung – und teilweise auch der Text – suggerieren eine unsinnige Interpretation davon, was ein Ausreisser ist. Ausreisser sind nicht irgendwelchen extremen Werte in einem Datensatz, sondern Werte, die aus einer anderen Verteilung fälschlich in einen Datensatz geraten sind. --Sigma^2 (Diskussion) 16:29, 5. Okt. 2023 (CEST)
gekerbte Boxplots
BearbeitenKönnte man doch erwähnen! (nicht signierter Beitrag von 84.180.156.165 (Diskussion | Beiträge) 13:39, 5. Nov. 2009 (CET))
- Bin kein Wikipedia-Experte, aber: müsste man diesen Diskussionsbeitrag nicht löschen, nachdem er im Artikel umgesetzt wurde? PPilz (Diskussion) 16:37, 7. Apr. 2015 (CEST)
Interquartilsabstand falsch?
BearbeitenBeim Beispiel steht folgendes: So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,25 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.
Müsste die Länge der Box nicht 2,25 betragen? 9,25 - 7 = 2,25 und nicht 2,5. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 18:32, 7. Apr. 2010 (CEST))
- , Siehe auch ErledigtWikipedia:Sei mutig -- Schlurcher ??? 17:09, 8. Apr. 2010 (CEST)
Ich habe mir alles noch mal genauer angeschaut. Die Boxplotlänge von 2,25 ist meiner Meinung nach falsch. Der Fehler liegt meiner Meinung nach bei den 9,25 der 75% der Daten (3. Quartil). 75% der Daten liegen nämlich nicht bei 9,25 sondern bei 9,5. Diese errechnen sich aus (9+10)/2. Somit stimmt die Länge des Boxplots mit 2,5 (errechnet sich aus 9,5 - 79. Jedoch muss das 3.Quartil von 9,25 in 9,5 geändert werden. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 20:15, 12. Apr. 2010 (CEST))
Beispiel: Median
BearbeitenMuss der Median nicht ein Vertreter der Messdaten sein? Ich sehe keine 8,5 in den Daten. Zugegeben, bei gerade Anzahl von Daten ist das mittlere Element (Median) nicht ganz eindeutig zu bestimmen, aber ich wuerde dann eben immer links neben der Mitte schauen. Ich wuerde also als Median 8 waehlen. (nicht signierter Beitrag von 129.70.161.79 (Diskussion) 17:11, 28. Feb. 2012 (CET))
- Nein, bei einer geraden Anzahl von Beobachtungen ist der Median der Mittelwert der beiden mittleren Beobachtungen. --Sigbert (Diskussion) 15:07, 1. Mär. 2012 (CET)
- Nun für mich in der Informatik ist es wichtig, dass der Median Element der Menge ist, laut Wiki nennt man das dann "Unter-" oder "Ober-" median. Sollte man das bei dem Beispiel vielleicht erwähnen um Unklarheiten zu vermeiden? (nicht signierter Beitrag von 84.62.112.53 (Diskussion) 22:15, 1. Mär. 2012 (CET))
- Das widerspricht der Eigenschaft des Medians, dass er die Daten in zwei gleich große Hälften teilt. --Sigbert (Diskussion) 18:54, 2. Mär. 2012 (CET)
- Nein, das ist überhaupt kein Problem. Der Median ist der Wert, so dass mindestens die Hälfte der Werte größer oder gleich und mindestens die Hälfte der Werte kleiner oder gleich ist.--Kortenkamp (Diskussion) 08:32, 9. Aug. 2012 (CEST)
- Das widerspricht der Eigenschaft des Medians, dass er die Daten in zwei gleich große Hälften teilt. --Sigbert (Diskussion) 18:54, 2. Mär. 2012 (CET)
- Nun für mich in der Informatik ist es wichtig, dass der Median Element der Menge ist, laut Wiki nennt man das dann "Unter-" oder "Ober-" median. Sollte man das bei dem Beispiel vielleicht erwähnen um Unklarheiten zu vermeiden? (nicht signierter Beitrag von 84.62.112.53 (Diskussion) 22:15, 1. Mär. 2012 (CET))
- Falsch: diese Angaben/Kommentare gelten nur, wenn der Wert oberhalb und unterhalb des Medians jeweils nur ein mal vorkommen. Sollte der Wert unterhalb des Medians z.B. drei mal (also geklumpt) vorkommen, der oberhalt des Medians z.B. fünf mal, dann liegt der Median nicht genau in der Mitte (auch wenn viele Statistikprogramme das so rechnen). Man muss im Prinzip eine kumulative Häufigkeitsverteilung aufzeichnen, und bei 50% ablesen, dann erhält man den Median auch für geklumpte Daten exakt PPilz (Diskussion) 16:19, 7. Apr. 2015 (CEST)
Abb. Beispielboxplot oben rechts
BearbeitenWelcher Definition der "Whiskers" folgt der Beispielboxplot oben rechts auf der Seite denn eigentlich? Wäre das 1,5-fache des Interquartilabstandes zu Grunde gelegt, dann lägen die angezeigten "Ausreißer" noch innerhalb dessen, beim Maximum/Minimum natürlich ebenso. Beim 2,5-%-Quantil bzw. 97,5-%-Quantil gäbe es ab einem gewissen Stichprobenumfang auch oben "Ausreißer", die aber (genauso wie die unteren) nicht automatisch so bezeichnet werden sollten.
Außerdem sollte es in der Bildunterschrift vermutlich "horizontal" statt "vertikal" heißen.
Ich denke, die Abbildung im Ganzen ist nicht optimal, insbesondere, da sie die prominenteste der Seite ist. Die zu Grunde liegende Definition sollte angegeben werden und die Bildunterschrift sollte korrigiert werden. (nicht signierter Beitrag von 131.159.65.107 (Diskussion) 16:51, 14. Mai 2012 (CEST))
Handelt es sich genau genommen nicht um eine Zahlengerade statt von einem Zahlenstrahl zu sprechen? (nicht signierter Beitrag von 2003:7A:AE32:704C:2DB8:480C:AB1F:C4D8 (Diskussion | Beiträge) 14:44, 14. Mär. 2016 (CET))
Antennen oder Whisker
BearbeitenIm Artikel steht "Diese Linien werden als „Antenne“ oder **seltener** als „Fühler“ oder „Whisker“ bezeichnet" aber sogar in diesem Artikel werden sie fast nur "Whisker" genannt. Passt irgendwie nicht zusammen. (nicht signierter Beitrag von 85.195.252.184 (Diskussion) 14:38, 16. Mai 2016 (CEST))
Kategorie Technische Zeichnung?
BearbeitenIst die Kategorie "Technische Zeichnung" wirklich zutreffend? --Harald321 (Diskussion) 22:26, 25. Jun. 2016 (CEST)
Boxplot Beispiel
BearbeitenHallo, im Beispiel steht, dass je 25% der Daten unter 7 und über 9 liegen würden. Also ich stimme zu, dass 25% der Daten über 9 liegen, aber liegen nicht nur 20% der Daten unter 7?!! und liegen dadurch nicht auch 55% der Daten in der Box? (nicht signierter Beitrag von 2A01:C22:3419:4900:C9D6:5050:99BA:E66F (Diskussion) 15:43, 11. Dez. 2020 (CET)) Da hast du ja Recht, vielleicht sollte es so ausgedrückt werden: "bis 7 und ab 9,5". Yomomo (Diskussion) 18:24, 11. Dez. 2020 (CET)
Im Boxplot Beispiel fehlen die Ausreißer bei 1 und 3. (nicht signierter Beitrag von 134.2.81.26 (Diskussion) 09:01, 29. Feb. 2024 (CET))
Definition der Antennen/ Whisker
BearbeitenIn dem Mathematikbuch Lambacher-Schweizer für die sechste Klasse und auch auf dieser Webseite:
https://mathegym.de/mathe/uebung/2611/6-3-boxplots
wird die untere und die obere Grenze der Antennen bzw. Whisker mit dem Minimum und dem Maximum gleichgesetzt. Bei dieser Definition kann es schlicht keine Ausreißer oder Extremwerte in der Darstellung geben. Vielleicht sollte auf diese alternative Darstellungsart im Artikel hingewiesen werden. Immerhin steht das so in einem sehr verbreiteten Schulbuch für die sechsten Klassen an Gymnasien. Wenn Schülerinnen oder Schüler, die das so in ihrem Unterricht gelernt haben, diesen Wikipedia-Artikel lesen, könnten sie sich sonst wundern.
Viele Grüße
--Jake2042 (Diskussion) 21:32, 11. Mär. 2023 (CET)
- Hallo alle zusammen,
- gerade habe ich gesehen, dass auf unterschiedliche Defintionen der Whisker bereits eingegengen wird. Mein Posting war also gar nicht nötig.
- Viele Grüße
- --Jake2042 (Diskussion) 14:39, 12. Mär. 2023 (CET)
Box-Plot oder Boxplot?
BearbeitenIch bin über die Schreibweise "Box-Plot" in diesem Artikel gestolpert. Ich bin bisher nur der Schreibweise "Boxplot" begegnet. Auf dieser Diskussionsseite reden auch alle vom "Boxplot" , und das ist auch die Schreibweise, die der Duden verwendet (siehe https://www.duden.de/rechtschreibung/Boxplot). Kennt sich hier jemand genauer damit aus? --Mathze (Diskussion) 22:27, 16. Okt. 2024 (CEST)
- Ich habe mal in der deutschsprachigen Literatur geschaut um zu sehen, was für eine Schreibweise dort üblich ist:
- Duden (2010): Basiswissen Schule Mathematik 5. bis 10. Klasse: Boxplot
- Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse (8.Aufl.): Box-Plot
- Sachs, Hedderich (2018): Angewandte Statistik. Methodensammlung mit R (16. Aufl.): Box-Plot, Box-Whisker-Plot
- Burkschat, Cramer, Kamps (2012): Beschreibende Statistik (2. Aufl.): Box-Plot
- Bamberg, Baur, Krapp (2022): Statistik. Eine Einführung für Wirtschafts- und Sozialwissenschaftler (19. Aufl.): Box-Plot
- Cleff (2015): Deskriptive Statistik und explorative Datenanalyse (3. Aufl.): Boxplot
- Cosfeld, Eckey, Türck (2016): Deskriptive Statistik. Grundlagen - Methoden - Beispiele - Aufgaben (6. Aufl.) Boxplot
- Mosler, Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik (3. Aufl.): Boxplot
- Oestreich, Romberg (2022): Keine Panik vor Statistik! (7. Aufl.): Box-Whisker-Plot, Boxplot
- Henze (2021): Stochastik für Einsteiger (13. Aufl.): Box-Plot
- Büchter, Henn (2007): Elementare Stochastik (2. Aufl.): Boxplot
- Ich halte diese Literaturschau umfassend genug um feststellen zu können: Es gibt keine einheitliche Schreibweise, beide Schreibweisen sind üblich und verbreitet. Deshalb schlage ich vor, den Artikelnamen so zu lassen, jedoch die alternative Schreibweise Boxplot in der Einleitung zu erwähnen. --Mathze (Diskussion) 21:11, 2. Nov. 2024 (CET)
Dritte genannte Variante der Antennen
BearbeitenDie dritte genannte Variante der Antennen ("In einer anderen Variante erfolgt die Berechnung der unteren Antenne als 2,5-%-Quantil und die Berechnung des oberen als 97,5-%-Quantil.") habe ich nach einer intensiven Suche nirgends in der Literatur gefunden. Ich gehe deshalb davon aus, dass es sich um eine unübliche Variante handelt und schlage die Löschung des entsprechenden Absatzes vor, es sei denn, hier kann doch noch jemand einen Literaturbeleg vorweisen. --Mathze (Diskussion) 18:55, 4. Dez. 2024 (CET)
- Hallo, als ich vor langer Zeit an diesen Artikel geschrieben habe, hatte ich die Optionen anhand von Statistica 8.0 beschrieben. Ich stimme allerdings zu, dass auch ich diese dritte Möglichkeit nicht weiter angetroffen habe. Kann also in der Tat tatsächlich gelöscht werden. Mache ich dann auch mal sofort. --Schlurcher ??? 14:19, 8. Dez. 2024 (CET)
- Super, vielen Dank! --Mathze (Diskussion) 14:38, 8. Dez. 2024 (CET)