Diskussion:Box-Plot

Letzter Kommentar: vor 14 Tagen von Mathze in Abschnitt Box-Plot oder Boxplot?
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Box-Plot“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.

Ausschließlich kardinalskaliert?

Bearbeiten

Ein Dozent erwähnte, dass sie ebensogut für ordinalskalierte Daten mit ausreichend vielen Ausprägungen sinnvoll sind. Der englische Wiki beschreibt dazu grouped numerical data, was dem nicht widerspricht.

--2A02:8071:B390:2201:D81A:3660:3F8C:4C14 05:47, 28. Mär. 2015 (CET)Beantworten

Dem stimme ich zu: ich kenne keine Literatur, bei welche die Daten kontinuierlich = kardinalskaliert sein müssen. Bei ordinalskalierten Daten hat man meist geklumpte Daten (s.u. mein Kommentar bei Median), hier muss man für Quartilenberechnungen die exaktere Interpolationsmethode verwenden. PPilz (Diskussion) 16:26, 7. Apr. 2015 (CEST)Beantworten

Ordinalskaliert bedeutet, dass die daten beliebigen monotonen Transformationen unterworden werden dürfen. Abstände haben dann definitionsgemäß keine Bedeutung. Schiefe kann nicht interpretiert werden. Die Lage des Medians zwischen dem unteren und oberen Quantil kann nicht interpretiert werden. Das 1,5-fache eines Quartilabstandes ist für ein ordinales Merkmal völlig sinnlos. Alle Interpretationen, die auf Längen, Abständen usw. beruhen sind für eine ordinales Merkmal sinnlos. Hier wurde schon im ersten Satz Theoriefindung betrieben oder man ist auf qualitativ schlechte Quellen (oder Dozenten) hereingefallen. Im Buch von Mosler und Schmid, das im ersten Satz des Artikels referenziert ist, ist Boxplot nicht umsonst ein Unterabschnitt im Abschnitt Metrisch skalierte Daten. --Sigma^2 (Diskussion) 17:29, 5. Okt. 2023 (CEST)Beantworten

Schiefe beim Boxplott

Bearbeiten

Sagt nicht auch die Lage der Box etwas über die Schiefe aus?

Zitat aus "Deskriptive Statistik" von Prof. Dr. Martin Missong und Prof. Stefan Mittnik:
...relativ gering[e] Abstände zwischen Minimum, unterem Quartil und Median, verglichen mit den relativ großen Abständen zwischen Median, oberem Quartil und Maximum, spiegeln die "linkssteile" bzw. "rechtsschiefe" Verteilung [...] wieder.

Tun sie, aber wie im Artikel bereits beschrieben ist die Lage des Medians maßgeblich und dem widersprichst du hier auch nicht. --jkohl 09:39, 12. Aug. 2008 (CEST)Beantworten

Unklarheit über Bestimmung der Quartile

Bearbeiten

Bestimmung der Quartile

Version 1: (Schulbuch): Das untere Quartil ist der Median der unteren Hälfte. (Was genau ist bei einer ungeraden Anzahl die "untere Hälfte"? Ich schlage vor, man entfernt den Median, damit ist "die untere Hälfte" wieder genau definiert. Es ist sogar ganz elegant, denn da bei einer geraden Anzahl der Median keinen eindeutigen "Träger" hat, entfernt man hier eben nichts.)

weitere Versionen: 0,25 der Anzahl der Daten, und man nimmt den Wert, der am nächsten dran liegt, aber es gibt auch noch weitere. Torika 15:08, 14. Apr 2008

Diese Aussage ist falsch, das Perzentil P25 ist nicht der Median der unteren Hälte wenn von der Verteilung innerhalb der Whisker gesprochen wird. Das Perzentil P25 muss nicht Teil der Messwerte sein, ebenso der Median. Dies ist in, im Fall des Median, Verteilungen mit einer geraden Anzahl Messwerte der Fall.

Schulbuch ist falsch, da es vereinfacht. Man macht eine kumulative Häufigkeitsverteilung der Daten, und liest bei 25% und 75% ab, wo genau die Quartilen liegen PPilz (Diskussion) 16:40, 7. Apr. 2015 (CEST)Beantworten

Ausreisser

Bearbeiten

Die Werte ausserhalb der Whiskers sind keine Ausreisser. Es gibt von Gather einen Aufsatz der Ausreisser mit Verteilungsannahmen verkoppelt und dass scheint mir ein besserer Ansatz zu sein. Besser wäre es daher von Extremwerten zu sprechen. --Sigbert 21:00, 10. Dez. 2008 (CET)Beantworten

Wo ist dieser Artikel? Würde mich interessieren. Die übliche Regel für Ausreißer bei Box-Whisker-Plots, also ein fixes Maß für Ausreißer = 1.5 IQR, wie von Tukey damals vorgeschlagen, ist sicherlich nicht sinnvoll. Ein Ausreißermaß muss vom Stichprobenumfang abhängen. Zitat aus https://en.wikipedia.org/wiki/Outlier:

"...in large samples, a small number of outliers is to be expected (and not due to any anomalous condition)." PPilz (Diskussion) 16:41, 7. Apr. 2015 (CEST)Beantworten

Die Abbildung – und teilweise auch der Text – suggerieren eine unsinnige Interpretation davon, was ein Ausreisser ist. Ausreisser sind nicht irgendwelchen extremen Werte in einem Datensatz, sondern Werte, die aus einer anderen Verteilung fälschlich in einen Datensatz geraten sind. --Sigma^2 (Diskussion) 16:29, 5. Okt. 2023 (CEST)Beantworten

gekerbte Boxplots

Bearbeiten

Könnte man doch erwähnen! (nicht signierter Beitrag von 84.180.156.165 (Diskussion | Beiträge) 13:39, 5. Nov. 2009 (CET)) Beantworten

Bin kein Wikipedia-Experte, aber: müsste man diesen Diskussionsbeitrag nicht löschen, nachdem er im Artikel umgesetzt wurde? PPilz (Diskussion) 16:37, 7. Apr. 2015 (CEST)Beantworten

Interquartilsabstand falsch?

Bearbeiten

Beim Beispiel steht folgendes: So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,25 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.

Müsste die Länge der Box nicht 2,25 betragen? 9,25 - 7 = 2,25 und nicht 2,5. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 18:32, 7. Apr. 2010 (CEST)) Beantworten

erledigtErledigt, Siehe auch Wikipedia:Sei mutig -- Schlurcher ??? 17:09, 8. Apr. 2010 (CEST)Beantworten

Ich habe mir alles noch mal genauer angeschaut. Die Boxplotlänge von 2,25 ist meiner Meinung nach falsch. Der Fehler liegt meiner Meinung nach bei den 9,25 der 75% der Daten (3. Quartil). 75% der Daten liegen nämlich nicht bei 9,25 sondern bei 9,5. Diese errechnen sich aus (9+10)/2. Somit stimmt die Länge des Boxplots mit 2,5 (errechnet sich aus 9,5 - 79. Jedoch muss das 3.Quartil von 9,25 in 9,5 geändert werden. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 20:15, 12. Apr. 2010 (CEST)) Beantworten

Beispiel: Median

Bearbeiten

Muss der Median nicht ein Vertreter der Messdaten sein? Ich sehe keine 8,5 in den Daten. Zugegeben, bei gerade Anzahl von Daten ist das mittlere Element (Median) nicht ganz eindeutig zu bestimmen, aber ich wuerde dann eben immer links neben der Mitte schauen. Ich wuerde also als Median 8 waehlen. (nicht signierter Beitrag von 129.70.161.79 (Diskussion) 17:11, 28. Feb. 2012 (CET)) Beantworten

Nein, bei einer geraden Anzahl von Beobachtungen ist der Median der Mittelwert der beiden mittleren Beobachtungen. --Sigbert (Diskussion) 15:07, 1. Mär. 2012 (CET)Beantworten
Nun für mich in der Informatik ist es wichtig, dass der Median Element der Menge ist, laut Wiki nennt man das dann "Unter-" oder "Ober-" median. Sollte man das bei dem Beispiel vielleicht erwähnen um Unklarheiten zu vermeiden? (nicht signierter Beitrag von 84.62.112.53 (Diskussion) 22:15, 1. Mär. 2012 (CET)) Beantworten
Das widerspricht der Eigenschaft des Medians, dass er die Daten in zwei gleich große Hälften teilt. --Sigbert (Diskussion) 18:54, 2. Mär. 2012 (CET)Beantworten
Nein, das ist überhaupt kein Problem. Der Median ist der Wert, so dass mindestens die Hälfte der Werte größer oder gleich und mindestens die Hälfte der Werte kleiner oder gleich ist.--Kortenkamp (Diskussion) 08:32, 9. Aug. 2012 (CEST)Beantworten
Falsch: diese Angaben/Kommentare gelten nur, wenn der Wert oberhalb und unterhalb des Medians jeweils nur ein mal vorkommen. Sollte der Wert unterhalb des Medians z.B. drei mal (also geklumpt) vorkommen, der oberhalt des Medians z.B. fünf mal, dann liegt der Median nicht genau in der Mitte (auch wenn viele Statistikprogramme das so rechnen). Man muss im Prinzip eine kumulative Häufigkeitsverteilung aufzeichnen, und bei 50% ablesen, dann erhält man den Median auch für geklumpte Daten exakt PPilz (Diskussion) 16:19, 7. Apr. 2015 (CEST)Beantworten

Abb. Beispielboxplot oben rechts

Bearbeiten

Welcher Definition der "Whiskers" folgt der Beispielboxplot oben rechts auf der Seite denn eigentlich? Wäre das 1,5-fache des Interquartilabstandes zu Grunde gelegt, dann lägen die angezeigten "Ausreißer" noch innerhalb dessen, beim Maximum/Minimum natürlich ebenso. Beim 2,5-%-Quantil bzw. 97,5-%-Quantil gäbe es ab einem gewissen Stichprobenumfang auch oben "Ausreißer", die aber (genauso wie die unteren) nicht automatisch so bezeichnet werden sollten.

Außerdem sollte es in der Bildunterschrift vermutlich "horizontal" statt "vertikal" heißen.

Ich denke, die Abbildung im Ganzen ist nicht optimal, insbesondere, da sie die prominenteste der Seite ist. Die zu Grunde liegende Definition sollte angegeben werden und die Bildunterschrift sollte korrigiert werden. (nicht signierter Beitrag von 131.159.65.107 (Diskussion) 16:51, 14. Mai 2012 (CEST)) Beantworten

Handelt es sich genau genommen nicht um eine Zahlengerade statt von einem Zahlenstrahl zu sprechen? (nicht signierter Beitrag von 2003:7A:AE32:704C:2DB8:480C:AB1F:C4D8 (Diskussion | Beiträge) 14:44, 14. Mär. 2016 (CET))Beantworten

Antennen oder Whisker

Bearbeiten

Im Artikel steht "Diese Linien werden als „Antenne“ oder **seltener** als „Fühler“ oder „Whisker“ bezeichnet" aber sogar in diesem Artikel werden sie fast nur "Whisker" genannt. Passt irgendwie nicht zusammen. (nicht signierter Beitrag von 85.195.252.184 (Diskussion) 14:38, 16. Mai 2016 (CEST))Beantworten

Kategorie Technische Zeichnung?

Bearbeiten

Ist die Kategorie "Technische Zeichnung" wirklich zutreffend? --Harald321 (Diskussion) 22:26, 25. Jun. 2016 (CEST)Beantworten

Boxplot Beispiel

Bearbeiten

Hallo, im Beispiel steht, dass je 25% der Daten unter 7 und über 9 liegen würden. Also ich stimme zu, dass 25% der Daten über 9 liegen, aber liegen nicht nur 20% der Daten unter 7?!! und liegen dadurch nicht auch 55% der Daten in der Box? (nicht signierter Beitrag von 2A01:C22:3419:4900:C9D6:5050:99BA:E66F (Diskussion) 15:43, 11. Dez. 2020 (CET)) Da hast du ja Recht, vielleicht sollte es so ausgedrückt werden: "bis 7 und ab 9,5". Yomomo (Diskussion) 18:24, 11. Dez. 2020 (CET)Beantworten

Im Boxplot Beispiel fehlen die Ausreißer bei 1 und 3. (nicht signierter Beitrag von 134.2.81.26 (Diskussion) 09:01, 29. Feb. 2024 (CET))Beantworten

Definition der Antennen/ Whisker

Bearbeiten

In dem Mathematikbuch Lambacher-Schweizer für die sechste Klasse und auch auf dieser Webseite:

https://mathegym.de/mathe/uebung/2611/6-3-boxplots

wird die untere und die obere Grenze der Antennen bzw. Whisker mit dem Minimum und dem Maximum gleichgesetzt. Bei dieser Definition kann es schlicht keine Ausreißer oder Extremwerte in der Darstellung geben. Vielleicht sollte auf diese alternative Darstellungsart im Artikel hingewiesen werden. Immerhin steht das so in einem sehr verbreiteten Schulbuch für die sechsten Klassen an Gymnasien. Wenn Schülerinnen oder Schüler, die das so in ihrem Unterricht gelernt haben, diesen Wikipedia-Artikel lesen, könnten sie sich sonst wundern.

Viele Grüße

--Jake2042 (Diskussion) 21:32, 11. Mär. 2023 (CET)Beantworten
Hallo alle zusammen,
gerade habe ich gesehen, dass auf unterschiedliche Defintionen der Whisker bereits eingegengen wird. Mein Posting war also gar nicht nötig.
Viele Grüße
--Jake2042 (Diskussion) 14:39, 12. Mär. 2023 (CET)Beantworten

Box-Plot oder Boxplot?

Bearbeiten

Ich bin über die Schreibweise "Box-Plot" in diesem Artikel gestolpert. Ich bin bisher nur der Schreibweise "Boxplot" begegnet. Auf dieser Diskussionsseite reden auch alle vom "Boxplot" , und das ist auch die Schreibweise, die der Duden verwendet (siehe https://www.duden.de/rechtschreibung/Boxplot). Kennt sich hier jemand genauer damit aus? --Mathze (Diskussion) 22:27, 16. Okt. 2024 (CEST)Beantworten

Ich habe mal in der deutschsprachigen Literatur geschaut um zu sehen, was für eine Schreibweise dort üblich ist:
  • Duden (2010): Basiswissen Schule Mathematik 5. bis 10. Klasse: Boxplot
  • Fahrmeir et al. (2016): Statistik. Der Weg zur Datenanalyse (8.Aufl.): Box-Plot
  • Sachs, Hedderich (2018): Angewandte Statistik. Methodensammlung mit R (16. Aufl.): Box-Plot, Box-Whisker-Plot
  • Burkschat, Cramer, Kamps (2012): Beschreibende Statistik (2. Aufl.): Box-Plot
  • Bamberg, Baur, Krapp (2022): Statistik. Eine Einführung für Wirtschafts- und Sozialwissenschaftler (19. Aufl.): Box-Plot
  • Cleff (2015): Deskriptive Statistik und explorative Datenanalyse (3. Aufl.): Boxplot
  • Cosfeld, Eckey, Türck (2016): Deskriptive Statistik. Grundlagen - Methoden - Beispiele - Aufgaben (6. Aufl.) Boxplot
  • Mosler, Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik (3. Aufl.): Boxplot
  • Oestreich, Romberg (2022): Keine Panik vor Statistik! (7. Aufl.): Box-Whisker-Plot, Boxplot
  • Henze (2021): Stochastik für Einsteiger (13. Aufl.): Box-Plot
  • Büchter, Henn (2007): Elementare Stochastik (2. Aufl.): Boxplot
Ich halte diese Literaturschau umfassend genug um feststellen zu können: Es gibt keine einheitliche Schreibweise, beide Schreibweisen sind üblich und verbreitet. Deshalb schlage ich vor, den Artikelnamen so zu lassen, jedoch die alternative Schreibweise Boxplot in der Einleitung zu erwähnen. --Mathze (Diskussion) 21:11, 2. Nov. 2024 (CET)Beantworten