Diskussion:Normalverteilung

Letzter Kommentar: vor 3 Monaten von Paul13337 in Abschnitt MathML Fehler
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.
Archiv
Wie wird ein Archiv angelegt?

Abgeschnittene Normalverteilung

Bearbeiten

Die "normale" Normalverteilung erstreckt sich bekannterweise über den gesamten reelen Wertebereich R, also über dem offenen Intervall <NegativeInfinity; PositiveInfinity>. Das heißt aber auch, dass x Werte weit ab vom Erwartungswert μ immer noch eine Wahrscheinlichkeit größer als Null haben, also (p(x >> μ) > 0) und (p(x << μ) > 0), auch wenn diese sehr klein sein mag. Nun ist es aber in der Praxis häufig so, dass man nur eine annähernde Normalverteilung der Zufallsgröße vorliegen hat. Die mehrfach erwähnte Zwölferregel (man addiere 12 über dem Intervall[-0.5;+0.5] gleichverteilte Zufallszahlen, um eine standardnormalverteilte Zufallsgröße zu bekommen) hat meines Erachtens einen Haken. Für eine "Daumenpeilung" mag die Zwölferregel ja noch ausreichen, aber die Wahrscheinlichkeit p, dass die Summe S aus 12 über [-0.5; +0.5] gleichverteilten Zufallszahlen, größer als +6 oder kleiner als -6 ist, ist definitiv gleich Null, also (p(S > +6) = 0) und (p(S < -6) = 0), was bei der "normalen" Normalverteilung aber niemals der Fall ist.

Man könnte jetzt die Anzahl der Summanden NS erhöhen, damit sich die Summe aus NS gleichverteilten Zahlen über [-a; +a] immer besser an eine "normale" Normalverteilung (mit (μ = 0) und (δ = (sqrt(NS) * DeviationOfUniformDistribution))) anpasst, aber "erhöht" man entweder das Signifikanzniveau α von (α = 0.01) (also 1 Prozent) auf z.B. (α = 0.001) (also 1 Promille), oder erhöht deutlich die Anzahl der durchgeführten Tests z.B von NT = 103 auf NT >= 109, oder erhöht die Anzahl der Intervalle für den Chi-Quadrat-Anpassungstest von NI = 24 auf NI >= 210, hat man das gleiche Anpassungsproblem wie vorher, das heißt, sowohl ein Chi-Quadrat-Anpassungstest als auch ein Kolmogorov-Smirnov-Anpassungstest lehnen die Hypothese, unsere Zufallsgröße sei normalverteilt, wieder zuverlässig ab, falls man auf irgend eine Art und Weise die Testkriterien verschärft. Mit anderen Worten: unsere Zwölferregel ist tatsächlich nur annähernd und nicht wirklich normalverteilt.

In der englischen Wikipedia gibt es für solche Art von Anpassungsproblemen schon eine allgemeine Lösung mit den Begriff der "truncated distribution" und speziell auch die "truncated normal ditribution", zu deutsch würde das wohl eher beidseitig begrenzte Normalverteilung als abgeschnittene Normalverteilung heißen, aber das soll hier nicht das Thema sein. Wichtig ist hier nur, dass eine "abgeschnittene" Normalverteilung, im Gegegnsatz zur "normalen" Normalverteilung, zwei zusätzliche reelle Parameter a und b (mit NegativeInfinity << a < b << PositiveInfinity) hat, welche die Endpunkte des Werteintervalls [a, b] der "abgeschnitten" Normalverteilung angeben und somit das unendliche Werteintervall <NegativeInfinty; PositiveInfinity> der "normalen" Normalverteilung ersetzen. Die Wahrscheinlichkeit, das x kleiner als a oder größer als b ist, ist hier im Gegensatz zur "normalen" Normalverteilung stets gleich 0, (also (p(x < a) = 0) und (p(x > b) = 0)). Damit die Fläche unter der ProbabilityDensityFunction (PDF) einer "abgeschnittenen" Verteilung aber immer noch 1 ergibt, wird die PDF entsprechend "zusammengeschoben". Damit ändern sich aber nicht nur die Form der PDF sondern auch die charakteristischen Merkmale bzw. Parameter (avg, var, dev, skn, kur, exz, ...) einer "abgeschnitten" Verteilung entsprechend im Vergleich zu der "normalen" Verteilung.

Natürlich gibt es auch nur einseitige Beschränkungen von Wahrscheinlichkeitsverteilungen mit unendlichen Wertebereichen. Das Thema ist also schon etwas umfangreicher, als ich es hier umrissen habe. Vielleicht gibt es so etwas, wie die "abgeschnittenen" Verteilungen ja auch schon in der deutschen Wikipedia (und ich war nur zu blöd, es zu finden, dann helft mir bitte auf die Sprünge), aber wenn nicht, sollte so etwas auch hier eingeführt oder besser verlinkt werden, denn das Prinzip, welches hinter den "abgeschnittenen" Verteilungen steckt, müßte meines Erachtens doch auf fast jede "unendliche" Verteilung anwendbar sein, oder? --Aragorn321 (Diskussion) 12:03, 13. Okt. 2015 (CEST)Beantworten

Der deutsche statistische Fachbegriff für truncated distribution ist gestutzte Verteilung, z. B.: P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, gestutzte Verteilung, S. 146-148.--Sigma^2 (Diskussion) 13:29, 12. Mär. 2023 (CET)Beantworten
Es wäre sinnvoll, einen Abschnitt oder einen Artikel "gestutzte Normalverteilung" analog zu truncated normal distribution" zu schreiben.--Sigma^2 (Diskussion) 10:21, 3. Jun. 2023 (CEST)Beantworten
Inzwischen gibt es den Artikel Stutzung, in dem auch gestutzte Normalverteilungen behandelt sind.--Sigma^2 (Diskussion) 12:33, 15. Okt. 2023 (CEST)Beantworten
Ich habe einen Verweis darauf unter Anwendungen eingefügt.--M.J. (Diskussion) 10:42, 17. Dez. 2023 (CET)Beantworten

Kontinuierliche Irwine-Hall-Verteilung

Bearbeiten

Aber auch bei der "abgeschnittenen" Normalverteilung melden die Anpassungstests bei NT >= 109 Testwiederholungen, einer "kleinen" Anzahl von Summanden (NS <= 12), einem strengen Signifikanzniveau (α <= 0.001) und einer großen Intervallanzahl (NI >= 210) kleinere Probleme. Es kommt daher schnell der Verdacht auf, dass die Zwölferregel durch die "abgeschnittene" Normalverteilung zwar durchaus etwas besser beschieben wird als durch die "normale" Normalverteilung, aber dass dies immer noch nicht "das Gelbe vom Ei" ist.

Ich bin durch reinen Zufall auf die englische Irwin-Hall-Verteilung (Irwin-Hall-Distribution) gestoßen, welche exakt die Verteilung einer Summe aus (N >= 1) über dem Intervall [0 ; 1] gleichverteilten Zufallswerten beschreibt. Im Fall (N = 1) oder (N = 2) entspricht dies genau der kontinuierlichen Gleich- oder Dreiecksverteilung. Um so größer N wird, um so mehr passt sich die Irwin-Hall-Verteilung der Normalverteilung an. Selbstverständlich kann man die Irwin-Hall-Verteilung noch um die zwei reellen Parametern A und B (mit A < B) erweitern, so dass sie exakt die Verteilung einer Summe S aus N über dem Interval [A ; B] gleichverteilten Zufallswerten beschreibt. Wie das genau gemacht wird, ist bei der englischen Bates-Verteilung (Bates Distribution) zu finden, welche exakt die Verteilung des Mittelwertes AVG = (S / N) aus N über dem Interval [A ; B] gleichverteilten Zufallswerten beschreibt.

Mit anderen Worten, man testet häufig gegen die "falsche" sprich "unendliche" oder "normale" Verteilung, nur weil man von der "richtigen" Verteilung nur noch nix wußte. Und wenn jeder Anpassungstest dann beharrlich "nein" sagt, schiebt man die Schuld bequemerweise dem "schlechten" Zufallsgenerator in die Schuhe, der manchmal aber gar nicht "schuldig" ist, wie obiges Beispiel mit der Zwölferregel hoffentlich anschaulich genug zeigt.

--Aragorn321 (Diskussion) 12:29, 22. Okt. 2015 (CEST)Beantworten

Es gibt hier keinen Bezug zum Artikel. Es geht um die Qualität von Zufallserzeugung.--Sigma^2 (Diskussion) 10:25, 3. Jun. 2023 (CEST)Beantworten
Wenn man den Artikel über die Gleichverteilung um die Faltung gleichverteilter Zufallsvariablen erweitern würde, wäre dort ein guter Platz für die genannten Verteilungen.--Sigma^2 (Diskussion) 10:39, 3. Jun. 2023 (CEST)Beantworten

Versicherungsmathematik: mittlerer Schadenshöhen

Bearbeiten

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

Ich reime mir mal zusammen: Es gibt kleine, mittlere und große Schadenshöhen. Kleine und große Schadenshöhen sind wohl weniger normalverteilt. Aber ohne eine Velinkung des Begriffes mittlere Schadenshöhe ist dieser Satz ziemlich wertlos. Zudem scheint mir dieser Satz stark abhängig vom versicherten Gut. Ich würde ihn streichen. --Siehe-auch-Löscher (Diskussion) 10:36, 23. Mär. 2018 (CET)Beantworten

Ich habe den unbelegten und teils unverständlichen Satz im Artikel gelöscht und hier abgelegt:
In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.
--Sigma^2 (Diskussion) 12:28, 3. Jun. 2023 (CEST)Beantworten

Entropie

Bearbeiten

Die Bemerkungen über die Entropie sind falsch, siehe entsprechend englischsprachigen Artikel, dort ist die Entropie korrekt beschrieben. (nicht signierter Beitrag von 2003:DE:2F2C:A594:FCCC:DBE3:71D6:898A (Diskussion) 16:08, 7. Mär. 2021 (CET))Beantworten

Ein bisschen mehr Erklärung wäre nützlich gewesen. Der englischsprachige Artikel schwankt ohne Erläuterung zwischen 'log' und 'ln'. Dort ist – ohne Beleg – ein Ausdruck für   angegeben, der vermutlich falsch ist, sich jedenfalls nicht mit anderen Quellen deckt.--Sigma^2 (Diskussion) 14:11, 12. Mär. 2023 (CET)Beantworten
Allerdings ist die Formel für die Entropie in der Tabelle falsch. --Sigma^2 (Diskussion) 14:31, 12. Mär. 2023 (CET)Beantworten
Immerhin ist  , also ident zu dem Ausdruck in unserem Artikel. Das beweist aber noch nicht viel. --Wrongfilter ... 14:34, 12. Mär. 2023 (CET)Beantworten
In der Tat; die richtige Formel ist mit zwei Belegen im Text zu finden und inzwischen auch in der Tabelle.--Sigma^2 (Diskussion) 12:44, 3. Jun. 2023 (CEST)Beantworten

Ausreißer

Bearbeiten

Es heißt im Artikel:

Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung.

Außerhalb der zweifachen Standardabweichung zu landen, hat eine Wahrscheinlichkeit von 4.55%. Das ist eine geometrisch verteilte Zufallsvariable, die als Erwartungswert 1/4.55%≈21.978 hat. Analog haben wir bei der dreifachen Standardabweichung eine Wahrscheinlichkeit von ungefähr 0.27% außerhalb zu landen. D. h. 1/0.27%≈370.37. Da von "ca. jeder 500. Messwert" zu sprechen, ist keine gute Abschätzung. Oder übersehe ich etwas? Bitte um Peer review, dann würde ich es beheben. --Anthroporraistes (Diskussion) 12:39, 11. Mär. 2023 (CET)Beantworten

  1. Es gibt keinen Zusammenhang zum statistischen Fachbegriff des Ausreißers, der einen Wert bezeichnet, der gerade nicht der Verteilung zugeordnet wird. Wenn überhaupt, dann gibt es einen Zusammenhang zu Extremwert.
  2. "Das ist eine geometrisch verteilte Zufallsvariable" ist wenig verständlich. Welche, wie definierte, diskrete Zufallsvariable ist in diesem Zusammenhang geometrisch verteilt?
  3. Bei groben Abschätzungen ist es üblich, zunächst mit 10er-Potenzen (Größenordnungen) zu arbeiten, dann mit den dazwischen liegenden Halbierungen. Außerhalb des Drei-Sigma-Bereichs liegt bei der Normalverteilung etwa 0,27 % Wahrscheinlichkeit, somit etwa jede 370-te Beobachtung:  . Die grobe Angabe "ca. jeder 500. Messwert" ist als Veranschaulichung vertretbar, eine Änderung auf die nicht ganz so grobe Abschätzung "ca. jeder 400. Messwert" aber auch. Eine ganzzahlige Abschätzung wäre "ca. jeder 370. Messwert". --Sigma^2 (Diskussion) 13:25, 11. Mär. 2023 (CET)Beantworten
    Den ersten Punkt verstehe ich nicht, wie hängt der mit dem Kommentar zusammen? Zum zweiten Punkt: Die Trefferwahrscheinlichkeit   für einen Ausreißer wird durch denjenigen Bereich bestimmt, der außerhalb der genannten Streuintervalle liegt. Zudem hängt die auf eine Zufallszahl folgende Zufallszahl nicht von letzterer ab. Das Warten auf den ersten "Treffer" (=Ausreißer) wird durch die geometrische Verteilung beschrieben. Zum dritten Punkt: Ich würde es auf 400 ändern. LG --Anthroporraistes
    Dann war ich zum ersten Punkt nicht deutlich genug. Der Begriff 'Ausreißer' wird von Dir vollkommen falsch verwendet. Eine Beobachtung aus einer Verteilung ist kein Ausreißer deswegen, weil diese aus den Verteilungsrändern kommt. Ausreißer sind Werte in einer Beobachtungsreihe, die nicht aus der Verteilung kommen, aus der die übrigen Beobachtungen entstammen, sondern z. B. durch Messfehler, durch Verschreiben, durch Übertragungsfehler oder Geräteausfall fälschlich in einen Datensatz geraten sind. Ausreißer können eventuell dadurch auffallen, dass ein extrem großer oder kleiner Wert vorliegt, der nicht zur Verteilung passt, welche die übrigen Daten beschreibt.
    Ritualisiert einen Teil großer und kleiner Beobachtungen in einem Datensatz zu Ausreißern zu erklären, ist statistisch gesehen völliger Unsinn, auch wenn es in manchen Anwendungsbereichen üblich ist (z. B. bei kommerziellen Mietspiegel-Erstellern). Für diesen Zweck gibt es in der Statistik Ausreißertests.
    Allerdings transportiert der von mir oben verlinkte Wikipedia-Artikel Ausreißer diesen Unsinn leider teilweise in der Einleitung, wie ich jetzt erst gesehen habe. Dort ist Änderungsbedarf.
    Dies ist ein Standardwerk zu Ausreißern in statistischen Daten : Vic Barnett, Toby Lewis: Outliers in Statistical Data. 3. Auflage. Wiley, Chichester 1995 (584 Seiten). Hier gibt es dazu eine Buchbesprechung. Gruß, --Sigma^2 (Diskussion) 00:15, 12. Mär. 2023 (CET)Beantworten
    Wenn man annimmt, dass eine Zufallsvariable normalverteilt ist, wäre das Sprechen über Ausreißer dann doch nicht mehr möglich. Bei der Normalverteilung hat jeder Wert, egal wie weit vom Erwartungswert entfernt, eine - wenn auch sehr kleine - Auftretenswahrscheinlichkeit. Was hieße es hier, nicht aus der Verteilung zu kommen? Der Artikel zur Normalverteilung schreibt: "Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt." --Anthroporraistes (Diskussion) 12:01, 12. Mär. 2023 (CET)Beantworten
    Der Text "werden oft als Ausreißer behandelt" ist überarbeitungsbedürftig. Wenn damit suggeriert wird, das solche Beobachtungen ausgeschlossen werden sollten, ist es Unsinn. Dass man sich eventuell solche Daten genauer ansieht, weil Sie eventuell Ausreißer sein könnten, ist in Ordnung. --Sigma^2 (Diskussion) 13:19, 12. Mär. 2023 (CET)Beantworten
    Okay, danke für deinen kritischen Input. Apropos, da du den Artikel "Multiples Testen" geschrieben hast, kann es sein, dass bei der Konsonanz ein Tippfehler ist? Sollte dort bei  , als eine der stärkeren Hypothesen, nachfolgend   stehen? (Index) Ich habe allerdings keine Erfahrung mit multiplem Testen, ist das erste, was ich dazu lese. --Anthroporraistes (Diskussion) 13:29, 12. Mär. 2023 (CET)Beantworten
    PS: Ich verstehe jetzt auch den ersten Punkt. Die Verlinkung auf diesen Artikel hat mich verwirrt. Dieser hier hat es für mich geklärt. --Anthroporraistes (Diskussion) 14:53, 12. Mär. 2023 (CET)Beantworten
    Danke für den Hinweis auf den Fehler in Multiples Testen. Es war auch mein Fehler, dass ich auf falsch auf Extremwert verlinkt hatte, sorry. Extremwertstatistik und Extremwertverteilungen bilden ein wichtiges Teilgebiet der mathematischen Statistik, wobei Extremwert ein häufig verwendeter Begriff für den maximalen oder minimalen Wert einer Stichprobe ist und im weiteren Sinn aber auch für die größten oder kleinsten Werte einer Stichprobe verwendet wird. Da muss noch eine Begriffsklärungsseite Extremwert in die Wikipedia. --Sigma^2 (Diskussion) 15:25, 14. Mär. 2023 (CET)Beantworten
    PS: Siehe auch Ordnungsstatistik für die Verteilung von Minimum und Maximum.--Sigma^2 (Diskussion) 15:34, 14. Mär. 2023 (CET)--Beantworten

Kontaminierte Normalverteilung

Bearbeiten

Im Abschnitt "Kontaminierte Normalverteilung" findet sich die Behauptung, dass die angegebene Verteilung die Eigenschaft hat das 92.5% aller Werte im Bereich von   liegen. Das kommt mir äußerst fraglich vor, und tatsächlich sind wenn ich die Verteilung simuliere wie erwartet 65.5% der Werte in diesem Interval.

Wo kommen die 92.5% her? Sind die frei erfunden oder ist (was ich vermute) ein durchaus interessantes Beispiel falsch kopiert worden? 2A00:23C6:1526:9F01:A582:88E9:C806:D450 10:08, 30. Jun. 2023 (CEST)Beantworten

Hast du den Querstrich bei   berücksichtigt? Gemeint ist nicht der Parameter   in der Angabe der Verteilung, sondern die tatsächliche Standardabweichung der kontaminierten Verteilung. Bei einer Simulation mit 10000 Punkten ( ) bekomme ich   und 9249 Punkte im Intervall  . --Wrongfilter ... 10:58, 30. Jun. 2023 (CEST)Beantworten

Herleitung der Normalverteilung aus der Binomialverteilung

Bearbeiten

Dieser Abschnitt ist unglücklich aufgebaut und schlecht lesbar. Zunächst heißt es "Die Normalverteilung kann aus der Binomialverteilung hergeleitet werden, wenn [...]". Dann werden vier Bedingungen aufgezählt, unter denen diese Herleitung möglich sei, wobei unklar bleibt, ob diese Bedingungen nun erfüllt sind oder nicht, und unter welchen Voraussetzungen sie erfüllt sind. Dann ist von Annäherungen für   die Rede, wobei   auf beiden Seiten der jeweiligen Gleichungen steht. Was hier stattdessen stehen könnte, ist ein klarer Beweis beruhend auf den Verteilungsfunktionen von Binomialverteilungen und Normalverteilungen.

Wenn der Grenzwertsatz von de Moivre-Laplace über die asymptotische Normalverteilung einer binomialverteilten Zufallsvariable gemeint ist, dann sollte dies zunächst dort stehen und nicht abgeschriebene Rechnungen. Die angegebene Quelle erfüllt zudem nicht die Qualitätsanforderungen der WP.

Gerade sehe ich, dass im Artikel Satz von Moivre-Laplace mit derselben Quelle dieselbe unglückliche Beweisstruktur steht. Jedenfalls ist die Doppelung der Herleitung überflüssig.--Sigma^2 (Diskussion) 12:26, 6. Sep. 2023 (CEST)Beantworten

Es sieht auch für mich sehr abschreckend aus. Es ist auch nicht beschrieben, was n und p sind. Anschaulich verstehe ich die Voraussetzungen als doppelt formuliert: erst gilt es in der Nähe des Erwartungswertes (dann müsste da stehen "höchstens von der Größenordnung O(sqrt(n))"). Und dann gilt es von den Rändern k und n-k entfernt.
Ich finde, dass normalerweise Beweise nicht in so einen Artikel gehören, zumal so umfangreiche. Aber ich kann die Bedeutung dieser "Herleitungen" nicht einschätzen und kenne mich da sonst auch nicht aus, deshalb traue ich mich nicht ran. --M.J. (Diskussion) 21:43, 7. Sep. 2023 (CEST)Beantworten
Ich beabsichtige, diese Herleitung zu löschen. Ein Verweis auf Normalapproximation und Satz von Moivre-Laplace ist ausreichend. --Sigma^2 (Diskussion) 23:02, 27. Sep. 2023 (CEST)Beantworten

Auch die Formulierungen sind unscharf, da sprachlich nicht unterschieden wird zwischen einer Herleitung der Dichtefunktion einer Normalverteilung aus der Wahrscheinlichkeitsfunktion einer Binomialverteilung (lokaler Grenzwertsatz von Moivre-Laplace) und der Herleitung der Verteilungsfunktion einer Normalverteilung aus der Verteilungsfunktion einer Binomialverteilung (globaler Grenzwertsatz von Moivre-Laplace). --Sigma^2 (Diskussion) 10:37, 1. Okt. 2023 (CEST)Beantworten

Die Herleitung hat bei Moivre-Laplace doch eine passenden Ort. Ob die Herleitung selbst besser geht, mag dort beurteilt werden. Wenn es zu Verbesserungen darin kommt, ist es auf jeden Fall einfacher, wenn nur diese eine Stelle geändert werden muss. --M.J. (Diskussion) 22:06, 5. Okt. 2023 (CEST)Beantworten
Ich habe jetzt den holprigen Beweis, bei dem nicht klar ist, was eigentlich bewiesen werden soll, gelöscht und hierhin kopiert:
Die Normalverteilung kann aus der Binomialverteilung hergeleitet werden, wenn die Differenz   zwischen der Anzahl   der Erfolge und dem Erwartungswert   von der Größenordnung   ist und   und   von der Größenordnung   sind.
Aus der Stirlingformel   ergibt sich dann folgende Näherung für die Binomialverteilung:
 
Um den Ausdruck   als Potenz von   darzustellen, wird der natürliche Logarithmus dieses Ausdrucks approximiert. Definiert man  , dann gilt
 
Aus der Potenzreihe   für den natürlichen Logarithmus folgt
 
Wendet man die Exponentialfunktion auf diese Gleichung an, dann erhält man
 
Außerdem gilt die Näherung
 
Weil   von der Größenordnung   ist, gilt  . Daraus folgt, dass die Binomialverteilung folgendermaßen dargestellt werden kann:
 
Dieser Wert nähert sich für große   der Normalverteilung mit dem Erwartungswert   und der Varianz   an.[1]
  1. Santa Cruz Institute for Particle Physics: The Normal Approximation to the Binomial Distribution
  2. --Sigma^2 (Diskussion) 01:09, 7. Okt. 2023 (CEST)Beantworten

    So genannte "Streuintervalle"

    Bearbeiten

    Das Wort Streuintervall kommt in der gesamten Wikipedia in genau in einem Artikel - nämlich diesem - (allerdings ohne Beleg) vor. Ich vermute, es ist eine Ad-Hoc-Worterfindung eines Wikipediaautors, also unzulässige WP:TF.

    Mit Literatur belegbare Begriffe aus der Statistik sind: Zufallstreubereich, Schwankungsintervall, Prognoseintervall (diese drei meist mit vorgegebener Wahrscheinlichkeit, Progoseintervall meist mit speziellerer Bedeutung), k-Sigma-Bereiche oder k-Sigma-Intervalle für Intervalle der Form   (meist mit ganzzahligem  ).

    Streubereich wird in der deskriptiven Statistik für das Intervall   verwendet, wobei   und   der kleinste und größte von   Beobachtungswerten   sind.

    Wenn keine Belege geliefert werden – vielleicht ist es ja ein Begriff aus der Schuldidaktik, dort wurde schon so mancher Begriff kreiert – beabsichtige ich die Löschung bzw. Ersetzung durch einen anderen Begriff.--Sigma^2 (Diskussion) 12:26, 15. Okt. 2023 (CEST)Beantworten

    Geht auch einfach nur "Intervall" oder "Bereich"? Konfidenzintervall trifft es wohl nicht?--M.J. (Diskussion) 15:17, 15. Okt. 2023 (CEST)Beantworten
    Eventuell kannst du auch https://de.wikipedia.org/wiki/Mehrdimensionale_Normalverteilung#Streuregionen_der_mehrdimensionalen_Normalverteilung auf Korrektheit bei der Benutzung der Begriffe überprüfen biggerj1 (Diskussion) 16:48, 15. Okt. 2023 (CEST)Beantworten
    Streuregion und Streukreisradius könnten Erfindungen desselben Autors sein. --Sigma^2 (Diskussion) 17:28, 15. Okt. 2023 (CEST)Beantworten
    Richtig, Konfidenzintervall trifft es überhaupt nicht. Ein Konfidenzintervall hat zufällige Intervallenden. Intervall ist ok. Es geht einfach nur um die Wahrscheinlichkeit eines Intervalls. --Sigma^2 (Diskussion) 17:24, 15. Okt. 2023 (CEST)Beantworten

    Tabelle "Erwartete Anteile ..."

    Bearbeiten
    • Gemischte Verwendung von Dezimalpunkt und Dezimalkomma, teils in derselben Spalte.
    • In der ersten Spalte ist   durchgängig redundant.
    • Die Erklärung der zweiten und dritten Spalte ist unglücklich.
    • In der vierten Spalte ist ppb nicht erklärt.

    --Sigma^2 (Diskussion) 12:49, 15. Okt. 2023 (CEST)Beantworten

    • Es sollte das Komma verwendet werden, ich sehe aber gerade keinen Fehler. Die Leerzeichen der Nachkommerstellen sind nicht nach der Konvention, glaube ich.
    • Das   kann weg. Vielleicht sollte mit   verständlicher sein?
    • Eine glücklichere Beschreibung findet sich vielleicht auf dieser Diskussionsseite einen Abschnitt weiter oben.
    • Die ppb-Spalte kann eigentlich auch weg, ppb wird nur einmal bei "6-sigma" verwendet, das ich weiter nach hinten verschoben habe. Dort wird aber auch ppm verwendet, was etwas irritiert. Eigentlich ist eine Spalte für die Multiplikation mit 10⁹ übertrieben. Das finde ich übrigens auch für die letzte Spalte, wo der Kehrwert angegeben wird.
    --M.J. (Diskussion) 15:24, 15. Okt. 2023 (CEST)Beantworten
    Ich habe die Punkte im Abschnitt "Standardabweichung" überarbeitet und dabei in die Tabellenüberschrift "Anteil der Dichtefunktion..." geschrieben, was mir bei nochmaligem Lesen auch als unglückliche Formulierung vorkommt. Gibt es da einen passenderen Vorschlag? Dann könnten auch die Bildunterschriften angepasst werden, wo jetzt noch das "Streuintervall" erwähnt wird.--M.J. (Diskussion) 22:05, 17. Okt. 2023 (CEST)Beantworten
    • "Anteile der Dichtefunktion" ist nicht gut. Wenn, dann sind es Flächenanteile und die sind Wahrscheinlichkeiten
    • Die Fehlerfunktion wird eigentlich nur noch in der numerischen Mathematik und Physik verwendet. In der Statistik spielt Sie überhaupt keine Rolle. Deswegen sollte sie in den laufenden Text aber nicht in den Tabellenkopf.
    • Mein Vorschlag:
      • Tabellenbezeichnung: Wahrscheinlichkeiten für eine Zufallsvariable  
      • Kopf zweite Spalte:  
      • Kopf dritte Spalte:  
    --Sigma^2 (Diskussion) 22:21, 17. Okt. 2023 (CEST)Beantworten
    Bisher wird Schreibweise P() nicht im Artikel verwendet, wenn es geht, würde ich es nicht für die Tabelle einführen. Wie wäre es mit
    • Kopf zweite Spalte: Wahrscheinlichkeit für  
    • Kopf dritte Spalte: Wahrscheinlichkeit für  
    P.S.: die Schreibweise " " wird im Artikel auch nicht eingeführt. --M.J. (Diskussion) 18:13, 18. Okt. 2023 (CEST)Beantworten
    Doch, erste Zeile der Definition. --Sigma^2 (Diskussion) 00:37, 19. Okt. 2023 (CEST)Beantworten
    Weiter unten im Artikel wird die Schreibweise P(...) auch verwendet.
    Ich bin gegen umgangssprachliche Formulierungen, die sich in der Nähe des Fachsprache befinden. Fachsprachlich heißt es Wahrscheinlichkeit eines Ereignisses und nicht Wahrscheinlichkeit für .... Ein Ereignis ist eine Menge, hier die Menge   als eine abgekürzte Schreibweise von ausführlicher  , denn eine Zufallsvariable ist eine Funktion auf einer Ergebnismenge. Und   ist eine vereinfachende Schreibweise von  , da doppelte Klammern redundant sind. Also, wenn ich P nicht verwenden dürfte, würde ich schreiben:
    • Kopf zweite Spalte: Wahrscheinlichkeit von  
    • Kopf dritte Spalte: Wahrscheinlichkeit von   --Sigma^2 (Diskussion) 01:02, 19. Okt. 2023 (CEST)Beantworten
      Ich habe deinen Vorschlag mit dem P() eingefügt, die geschweifte Klammer mag ich noch weniger. Übrigens ist mir die numerische Mathematik und Physik näher als Statistik, deshalb kann es schon vorkommen, dass ich fachsprachlich nicht treffend formuliere. --M.J. (Diskussion) 22:38, 19. Okt. 2023 (CEST)Beantworten
      Danke für Deine geduldigen Überarbeitungen. Der Artikel wird immer besser. --Sigma^2 (Diskussion) 08:50, 20. Okt. 2023 (CEST)Beantworten
      "Umgekehrt ist die Grenze des Intervalls, in dem der Anteil an Werten   liegt, durch
       
      bestimmt." Wo beginnt das Intervall, wo endet es? Es könnte bei -unendlich beginnen oder zentriert um den Erwartungswert sein... Bitte im Text präzisieren :) biggerj1 (Diskussion) 11:09, 20. Okt. 2023 (CEST)Beantworten
      Heute gemacht. --Sigma^2 (Diskussion) 20:53, 20. Okt. 2023 (CEST)Beantworten
      Danke schön! biggerj1 (Diskussion) 06:30, 21. Okt. 2023 (CEST)Beantworten
      Mir kommt es jetzt so vor, als wenn da zweimal etwas sehr ähnliches steht, einmal im Text, einmal in der Anmerkung 13:
      • Die Wahrscheinlichkeit   kann alternativ durch die Verteilungsfunktion   der Standardnormalverteilung oder durch die Fehlerfunktion   ausgedrückt werden. Dazu betrachtet man ein Intervall, welches symmetrisch um den Median aufgebaut ist:
          bzw. wegen Symmetrie  
        daher gilt   bzw. äquivalent:
      • Es gilt
         
      Mir gefällt die zweite Rechnung besser, weil man nicht "wissen" muss, dass   ist und das Integral weiter oben bei   anfängt. Dass die Verteilungsfunktion und die Fehlerfunktion zusammenhängen, steht schon im Abschnitt "Verteilungsfunktion", ich hätte es daher hier nicht nochmal erwähnt, nur beide Formeln hingeschrieben.
      Jetzt ist es noch unglücklich, dass die Standartnormalverteilung Z und das Intervall mit z bezeichnet wird. Ich wäre für einen anderen Buchstaben an einer der Stellen. --M.J. (Diskussion) 19:17, 21. Okt. 2023 (CEST)Beantworten
      Ich fand die letzte Ergänzung von Benutzer:biggerj1 auch seltsam, nachdem es schon eine vollständige Herleitung in der Anmerkung gab, die aber biggerj1 vielleicht übersehen hat.   ist das übliche Symbol für eine standardnormalverteilte Zufallsvariable,   wird häufig bei der Vervielfachung von   verwendet. Ich finde an dieser Stelle   eigentlich nicht störend, weil es doch als eine mögliche Realisierung von   mitgedacht wird und Realisierungen von   häufig mit   bezeichnet werden. Oder stört etwas anderes? --Sigma^2 (Diskussion) 22:47, 21. Okt. 2023 (CEST)Beantworten
      Ohh entschuldige! Die Fußnote ist mir tatsächlich entgangen. Habe meine Änderungen rausgenommen. biggerj1 (Diskussion) 01:52, 22. Okt. 2023 (CEST)Beantworten
      Ja, stimmt, dass Z und z so richtig zusammen passen hatte ich nicht bemerkt, ich hatte das z nur als übernommen von   verstanden. --M.J. (Diskussion) 20:57, 22. Okt. 2023 (CEST)Beantworten

    Normierte Normalverteilung

    Bearbeiten

    Das klingt für mich sehr seltsam. So als hätte ich es noch nie gelesen. Gibt es dafür einen Beleg?--Sigma^2 (Diskussion) 17:25, 28. Okt. 2023 (CEST)Beantworten

    Das steht so im Taschenbuch der Mathematik, mindestens in der 2. und 5. Auflage (1995, 2000). --M.J. (Diskussion) 17:31, 28. Okt. 2023 (CEST)Beantworten
    Dann bitte ein Beleg an die erste Verwendung, möglichst mit Seitenzahl. In der Statistik und Wahrscheinlichkeitstheorie gibt es das wohl eher selten. Da aber der Bronstein eine Bibel für Ingenieure und Physiker ist, sollte es jedenfalls - mit Beleg - drinbleiben. --Sigma^2 (Diskussion) 17:43, 28. Okt. 2023 (CEST)Beantworten
    Ok.
    Wo es gerade zu Definition geht, ist die Schreibweise   üblich, warum nicht  ? Im Bronstein steht keine Bedingung zu   auf den angrenzenden Seiten. --M.J. (Diskussion) 18:19, 28. Okt. 2023 (CEST)Beantworten
    Ich habe es überarbeitet. Bei Funktionen den Definitionsbereich anzugeben, ist jedenfalls besser, als keine Angabe zu machen. Bei   sind die Bedingungen   und   wichtig.--Sigma^2 (Diskussion) 19:17, 28. Okt. 2023 (CEST)Beantworten
    Ich verstehe, dass  . Wo ich gelernt habe, war  . Im Artikel folgt:  , womit dann   implizit festgelegt ist (also ohne Quadrat). --M.J. (Diskussion) 19:34, 28. Okt. 2023 (CEST)Beantworten
    1)   bedeutet  , denn  
    2) Der Fall   existiert durchaus über die alternative Definition. Er spielt zwar keine Rolle für die Grundlagen und die meisten Leser, aber er spielt eine Rolle in der Theorie der stochastischen Differentialgleichungen.--Tensorproduct 16:51, 31. Okt. 2023 (CET)Beantworten
    Ich habe jetzt mehr   statt   in die Definition gebracht, weil mir nicht ersichtlich ist, warum es   sein soll. Ich hoffe, du, Sigma^2 nimmst es mir zumindest nicht aus Eitelkeit übel. Wenn es Gründe für das Quadrat gibt, kann es auch wieder revertiert werden, bzw. eine einheitliche Schreibweise wäre schon schön, so dass im Exponenten auch   steht und nicht   oder so.
    Das hatte ich überhaupt nicht verstanden, dass es Dir um   anstelle von   geht. Natürlich ist die Standardabweichung als Wurzel der Varianz definiert und es fällt nicht eine Standardabweichung vom Himmel, deren Quadrat dann die Varianz ist. Andererseits ist   Skalenparameter, so dass es aus statistischer Sicht auch Argumente dafür gibt,   und   als Parameter der Normalverteilung aufzufassen. Dies findet sich in der österreichischen Schule der Statistik und z. B. in Mit Franz Baur, Michael Krapp: Statistik: Eine Einführung für Wirtschafts- und Sozialwissenschaftler. 19. Auflage. Walter de Gruyter, Berlin / Boston 2022, ISBN 978-3-11-075919-8, doi:10.1515/9783110759327 (E-Book-ISBN 978-3-11-075940-2)..
    Für die Zufallsvaraiable X verlange ich jetzt nicht mehr, dass sie stetig ist, so verstehe ich die Verlinkung von "stetige Zufallsvariable" und so steht es im Bronstein. Dass X stetig ist, ergibt sich aus der Verteilungsfunktion. Ev. könnte es irgendwo erwähnt werden, falls es erwähnenswert ist. --M.J. (Diskussion) 22:10, 31. Okt. 2023 (CET)Beantworten
    Der singuläre Fall   wird auch in der multivariaten Statistik häufig mitberücksichtigt. Im Artikel Mehrdimensionale Normalverteilung ist es besser gemacht. Beispielsweise gibt es eine einfache Charakterisierung, die auch zur Definition verwendet wird, eines multivariat normalverteilten Zufallsvektor   durch univariate Normalverteiltheit aller Linearkombinationen   mit  . Im Fall einer nichtinvertierbaren Kovarianzmatrix (singulärer Fall) ergeben sich für bestimmte Vektoren   Einpunktverteilungen (mit  ), die dann zu den univariaten Normalverteilungen gezählt werden.--Sigma^2 (Diskussion) 00:00, 1. Nov. 2023 (CET)Beantworten

    verblüffende Übereinstimmung

    Bearbeiten

    Wer war denn 1845 verblüfft? Laplace war schon lange tot. Gauß zwar noch nicht, aber siehe Carl Friedrich Gauß#Beiträge zur Astronomie. --Rainald62 (Diskussion) 16:31, 11. Mär. 2024 (CET)Beantworten

    Vermutlich soll Monsieur Quetelet selbst verblüfft gewesen sein. In der angegebenen Quelle schreibt er auf S. 259 von der concordance remarquable qui existe entre les nombres observés et les nombres calculés. Allerdings meint remarquable eher ein nüchterneres "bemerkenswert", und "verblüfft" scheint übertrieben, jedenfalls wenn diese Stelle tatsächlich gemeint ist. --Wrongfilter ... 19:54, 11. Mär. 2024 (CET)Beantworten
    Da hat er aber lange für gebraucht, denn das Buch ist von 1844. ;-) --≡c.w. @… 17:05, 13. Mär. 2024 (CET)Beantworten
    Interessant. Die [angegebene Quelle] ist ein Abdruck desselben im Bulletin de la Commission Centrale de Statistique, datiert auf 1845. But what's another year? Die Daten zu den Brustumfängen stammen übrigens aus dem Jahr 1817. --Wrongfilter ... 18:06, 13. Mär. 2024 (CET)Beantworten
    Die "Übereinstimmung" sollte aber in Anführungszeichen als Zitat genannt werden. --M.J. (Diskussion) 20:57, 13. Mär. 2024 (CET)Beantworten

    MathML Fehler

    Bearbeiten

    Hi, ich wollte nur festhalten, dass auf der mobilen Version der Wikipediaseite in Abschnitt Definition im ersten Satz nach "wobei" eine MathML-Fehlermeldung angezeigt wird:

    "Fehler beim Parsen (SVG (MathML kann über ein Browser-Plugin aktiviert werden): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „http://localhost:6011/de.wikipedia.org/v1/“:): {\displaystyle \mu,\sigma \in \R ,\; \sigma > 0"

    In der Desktop-Version der Wikipediaseite tritt es nicht auf. Ich benutze Firefox Version 129.0.2 (64-Bit). --Paul13337 (Diskussion) 18:07, 3. Sep. 2024 (CEST)Beantworten

     
    --Paul13337 (Diskussion) 18:09, 3. Sep. 2024 (CEST)Beantworten