Der Begriff der Stutzung (englisch truncation) wird in der Stochastik für zwei verschiedene Konzepte verwendet. Beim ersten Konzept ist eine gestutzte Verteilung die Wahrscheinlichkeitsverteilung einer Zufallsvariablen unter der Bedingung auf ein Ereignis , wobei in der Regel ein Teilintervall der reellen Zahlen ist. Beim zweiten Konzept wird aus einer gegebenen Zufallsvariablen eine neue gestutzte Zufallsvariable so gebildet, dass die Wahrscheinlichkeit außerhalb eines beschränkten Intervalls auf den Punkt 0 oder auf die Punkte und gelegt wird.
Gestutzte Verteilung als bedingte Verteilung
BearbeitenDefinition
BearbeitenDie reellwertige Zufallsvariable besitze die Wahrscheinlichkeitsverteilung auf dem Messraum , wobei die Borelsche σ-Algebra auf bezeichnet. Es sei mit . Die auf gestutzte (oder eingeschränkte) Verteilung (englisch truncated distribution) ist dann durch die bedingten Wahrscheinlichkeiten
gegeben.
Bezeichnungen
BearbeitenHäufig ist die Menge ein Intervall der Form , mit oder . Bei einer Stutzung auf das Intervall nennt man die Verteilung einseitig bei nach oben gestutzt[1] oder rechtsseitig gestutzt[2]. Bei einer Stutzung auf das Intervall nennt man die Verteilung einseitig bei nach unten gestutzt[1] oder linksseitig gestutzt[2]. Bei einer Stutzung auf das Intervall nennt man die Verteilung zweiseitig bei nach unten gestutzt und bei nach oben gestutzt[1] oder zweiseitig gestutzt[3]. Manchmal wird eine gestutzte Verteilung auch als trunkierte Verteilung[4] bezeichnet.
Eigenschaften
Bearbeiten- ist eine Wahrscheinlichkeitsverteilung auf dem Messraum mit , so dass einen Wahrscheinlichkeitsraum bildet.
- Es gilt
- In einer eher in der Statistik üblichen Schreibweise ist
- In maßtheoretischer Interpretation ist ein gegebener Wahrscheinlichkeitsraum, die Zufallsvariable eine -messbare Abbildung und
Beispiel
Bearbeiten- Wenn eine Poissonverteilung auf gestutzt wird, dann entsteht eine positive Poisson-Verteilung.
- Wenn eine Standardnormalverteilung auf gestutzt wird, dann entsteht eine Chi-Verteilung mit einem Freiheitsgrad. Dies ist die Verteilung von , wenn standardnormalverteilt ist.[5]
- Häufig ist die Menge ein Intervall der Form , mit oder . In diesen Fällen gibt es explizite Formeln, um die Verteilungsfunktion der gestutzten Verteilung durch die Verteilungsfunktion von und die Koeffizienten und darzustellen.[6] Falls eine stetige Zufallsvariable ist, für die eine Dichtefunktion existiert, gibt es auch Formeln um die Dichtefunktion aus der Dichtefunktion zu berechnen.[7]
- Falls die Zufallsvariable die Verteilungsfunktion der auf das Intervall gestutzten Verteilung der Zufallsvariablen hat, gilt
- Falls die Zufallsvariable die auf das Intervall gestutzte Verteilung der diskreten Zufallsvariablen hat, gilt
- Falls die Zufallsvariable die auf das Intervall gestutzte Verteilung der stetigen Zufallsvariablen mit der Dichtefunktion hat, ist
- die Dichtefunktion der Zufallsvariablen .[8]
Gestutzte Normalverteilung
BearbeitenEin häufig verwendeter Fall einer gestutzten Verteilung ist die auf ein Intervall gestutzte Normalverteilung . Im Folgenden bezeichnen und die Dichtefunktion und die Verteilungsfunktion der Standardnormalverteilung. Für jedes wird die Bezeichnung vereinbart.
- Eine Zufallsvariablen mit der auf das Intervall mit gestutzten Normalverteilung hat die Verteilungsfunktion
- die Dichtefunktion
- den Erwartungswert
- und die Varianz
- Eine Zufallsvariablen mit der auf das Intervall gestutzten Normalverteilung hat die Verteilungsfunktion
- die Dichtefunktion
- den Erwartungswert
- und die Varianz
- Eine Zufallsvariablen mit der auf das Intervall gestutzten Normalverteilung hat die Verteilungsfunktion
- die Dichtefunktion
- den Erwartungswert
- und die Varianz
Anwendungen
BearbeitenDie statistische Lebensdaueranalyse (englisch life testing) wird hauptsächlich in der Technik und Biometrie angewendet. Die positive und stetige Zufallsvariable bezeichne eine zufällige Lebensdauer.
Dann beschreibt für einen Zeitpunkt die Zufallsvariable durch negative bzw. positive Werte inwieweit die Lebensdauer den Zeitpunkt zufällig unter- bzw. überschreitet.
Die zufällige Restlebensdauer bei Erreichen von ist durch die Verteilung der Zufallsvariablen unter der Bedingung bzw. die auf das Intervall gestutzte Verteilung von beschrieben.[10]
Ist der Einsatz einer Maschine bis zum Zeitpunkt geplant, dann interessiert die zufällige Frühausfallzeit, die durch die Verteilung von unter der Bedingung bzw. die auf das Intervall gestutzte Verteilung von gegeben ist.[11]
Die zufällige Interimslebensdauer zwischen zwei Zeitpunkten und mit ist die Verteilung unter der Bedingung bzw. die auf das Intervall gestutzte Verteilung von gegeben.[12]
Gestutzte Zufallsvariable als beschränkte Zufallsvariable
BearbeitenGestutzte Zufallsvariablen
BearbeitenBei Konvergenzuntersuchungen für eine Folge von Zufallsvariablen werden häufig die Zufallsvariablen
gebildet und als gestutzte Zufallsvariablen (englisch truncated random variables) bezeichnet.[13][14] Dabei bezeichnet die Indikatorfunktion der Menge .
Die so gebildeten Zufallsvariablen sind beschränkt, da gilt und haben damit eine endliche Varianz und endliche Momente höherer Ordnung. Die Folge besteht nur aus beschränkten Zufallsvariablen und ist eine Approximation der Folge . Wenn die Zufallsvariablen endliche Erwartungswerte haben, gilt die Abschätzung für hinreichend großes .[15]
Beim Beweis von Grenzwertsätzen ist die Verwendung in dieser Art gestutzter Zufallsvariablen eine wichtige Beweismethode, die als Stutzungsmethode (englisch method of truncation)[16] oder Abschneidetechnik[17] bekannt ist. Eine typische Anwendung ist der Beweis des schwachen Gesetzes der großen Zahlen in einer allgemeinen Version, die endliche Erwartungswerte, aber keine endlichen Varianzen voraussetzt.[15] In diesem Zusammenhang heißt die Folge auch gestutzte Version der Folge .[13]
Die Beschränktheit der Zufallsvariablen wird dabei dadurch erreicht, dass die außerhalb des Intervalls liegende Wahrscheinlichkeitsmasse der Stelle 0 zugeordnet wird. Dagegen wird bei der auf das Intervall gestutzten Verteilung die außerhalb des Intervalls liegende Wahrscheinlichkeitsmasse gleichmäßig auf das Intervall verteilt.
Alternative Form der Stutzung einer Folge von Zufallsvariablen im Zusammenhang Untersuchungen der Voraussetzungen für Gesetze der großen Zahlen sind die Stutzung der Zufallsvariablen in der Form[18]
und in der Form[19]
Winsorisierte Zufallsvariable
BearbeitenFür eine Zufallsvariable und ein Intervall mit ist
die auf das Intervall winsorisierte Zufallsvariable. Dabei werden Werte von , die kleiner als sind, der Stelle und Werte von , die größer als sind, der Stelle zugeordnet. Die neu gebildete Zufallsvariable ist beschränkt mit Werten in .[20]
Unterschied der Konzepte
BearbeitenDer Unterschied der beiden Konzepte sei an einer standardnormalverteilten Zufallsvariable mit der Verteilungsfunktion erläutert.
- Die auf das Intervall gestutzte Verteilung hat die Verteilungsfunktion
Dabei gilt .
- Die durch definierte Zufallsvariable ist beschränkt, da sie nur Wert im Intervall annimmt, und hat die Verteilungsfunktion
Während die Verteilungsfunktion stetig ist, hat die Verteilungsfunktion von die Sprungstelle 0, an der diese um den Wert springt, es gilt also .
In der Literatur kommt es manchmal zur Konfusion beider Konzepte. Beispielsweise wird ausgehend von einer Zufallsvariablen und einem Intervall die Zufallsvariable definiert und als auf gestutzte Zufallsvariable bezeichnet, dann aber die Verteilungsfunktion der auf gestutzten Verteilung (im Sinn einer bedingten Verteilung) angegeben.[21]
Gestutzte Beobachtungswerte und verwandte Konzepte
BearbeitenGestutzte und zensierte Beobachtungswerte sind Fälle unvollständig erhobener oder berichteter Daten, während bei getrimmten und winsorisierten Beobachtungswerten zunächst eine Stichprobe vollständiger Daten vorliegt, aus der extreme Werte entfernt werden, um eine Verbesserung im Sinn robuster Schätzverfahren zu erreichen.
Gestutzte Beobachtungswerte
BearbeitenGestutzte Beobachtungswerte sind ein Fall unvollständiger berichteter Daten, wobei nur Beobachtungswerte aus einem Teil der Grundgesamtheit vorliegen. Bei der Beobachtung von Lebenszeiten liegen linksseitig gestutzte Beobachtungswerte vor, wenn eine Häufigkeitsverteilung von Lebenszeiten vorliegt, wobei nur Beobachtungseinheiten berücksichtigt sind, deren Lebenszeit einen bestimmten Wert überschreitet. Im Fall von Zufallsstichproben können solche Beobachtungswerte als Realisierungen von Stichprobenvariablen mit einer gestutzten (bedingten) Verteilung beschrieben werden.
Zensierte Beobachtungswerte
BearbeitenBei zensierten Daten (oder Beobachtungswerten) sind einige beobachtete Werte nur unvollständig bekannt. Wenn bei Untersuchungseinheiten für die Werte eines Merkmals mit Werten gemessen werden, so spricht man von an der Stelle linksseitig zensierten Beobachtungswerten. Falls nur die Werte im Intervall bekannt sind, so liegen an der Stelle rechtsseitig zensierte Beobachtungswerte vor. Falls nur die beobachteten Werte im Intervall bekannt sind, liegen beidseitig durch das Intervall zensierte Beobachtungwerte vor.[22]
Wenn eine Zufallsstichprobe ist und nur die Realisierungen in einem vor der Stichprobenziehung fixierten Intervall bekannt sind, so spricht man von einer linksseitig zensierten Stichprobe vom Typ I. Dabei ist die Anzahl der unterhalb von liegenden Beobachtungswerte die Realisierung einer Zufallsgröße.[23] Von einer linksseitig zensierten Stichprobe vom Typ II spricht man, wenn die Anzahl vorgegeben ist und sich die Grenze zufällig ergibt. Dabei liegen nur Beobachtungswerte vor.[23] Analog werden die Begriffe der rechtsseitig und beidseitig zensierten Stichprobe verwendet.
Zensierte Stichproben spielen eine Rolle bei der Lebensdaueranalyse und Zuverlässigkeitsanalyse in der Biometrie und Technik, bei der die Beobachtungsdauer begrenzt ist. Wenn die Beobachtungsdauer durch einen festen Abbruchzeitpunkt begrenzt ist, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ I; wenn noch einer vorgegebenen Anzahl von Ausfällen abgebrochen wird, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ II.[24]
Zensierte Stichproben vom Typ I werden manchmal als gestutzte Stichproben bezeichnet.[23]
Getrimmte Beobachtungswerte
BearbeitenFür Stichprobenwerte entstehen symmetrisch getrimmte Stichprobenwerte, wenn für ein die jeweils kleinsten und größten Werte entfernt werden, so dass die verbliebene Stichprobe aus Werten besteht.[25] Der arithmetische Mittelwert der verbliebenen Werte
- ,
heißt dann -getrimmter Mittelwert mit .[25]
Dabei kann der getrimmte Mittelwert im Fall und als Mittelwert der auf das Intervall gestutzten empirischen Verteilung interpretiert werden. Die empirische Verteilung der beobachteten Werte ist
- .
Durch Stutzung auf ergibt sich
und damit die empirische Verteilung für die beobachteten Werte , die sich im Intervall befinden.
Winsorisierte Beobachtungswerte
BearbeitenAus den Stichprobenwerten wird für die winsorisierte Stichprobe gebildet, indem die kleinsten Werte auf den nächstgrößeren Wert erhöht werden und die größten Wert auf den nächstkleineren Wert reduziert werden.[25] Der arithmetische Mittelwert dieser Werte ist der winsorisierte Mittelwert
- .
Literatur
Bearbeiten- P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146–148.
- Janos Galambos: Truncation Methods in Probability. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, Truncation Methods in Probability , S. 8773–8775, doi:10.1002/0471667196.
- David Ruppert: Trimming and Winsorization. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, S. 8765–8770, doi:10.1002/0471667196.
Einzelnachweise
Bearbeiten- ↑ a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147.
- ↑ a b Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 150, doi:10.1524/9783486710540.
- ↑ Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 149, doi:10.1524/9783486710540.
- ↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, S. 459, doi:10.1007/978-3-642-01837-4.
- ↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, χ-Verteilung, S. 58.
- ↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 147 (Bei der Verwendung der Formeln ist zu beachten, dass in dieser Quelle eine Verteilungsfunktion linksseitig stetig definiert ist).
- ↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147-148.
- ↑ a b c Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 220.
- ↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146.
- ↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 863–864.
- ↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 865–866.
- ↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 866–867.
- ↑ a b Sidney I. Resnick: A Probability Path. Birkhäuser, Boston / Basel / Berlin, ISBN 0-8176-4055-X, S. 203, doi:10.1007/978-0-8176-8409-9.
- ↑ Joseph P. Romano, Andrew F. Siegel: Counterexamples in Probability and Statistics. Chapman & Hall, New York / London 1986, ISBN 0-412-98901-8, S. 110.
- ↑ a b Janos Galambos: Truncation Methods in Probability. S. 8774.
- ↑ Janos Galambos: Truncation Methods in Probability. S. 8775.
- ↑ Ludger Rüschendorf: Wahrscheinlichkeitstheorie (= Springer Lehrbuch Masterclass). Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-48936-9, S. 240, doi:10.1007/978-3-662-48937-6.
- ↑ Michael A. Proschan, Pamela A. Shaw: Essentials of Probability Theory for Statisticians. CRC Press, Boca Raton 2016, ISBN 978-1-4987-0419-9, S. 139–140.
- ↑ Jordan Stoyanov: Counterexamples in Probability (= Dover Books on Mathematics). 3. Auflage. Dover Publications, New York 2013, ISBN 978-0-486-49998-7, Abschn. 17.3, S. 186–187.
- ↑ Janos Galambos: Truncation Methods in Probability. S. 8773.
- ↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 221–222.
- ↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 216.
- ↑ a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 596.
- ↑ P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 597.
- ↑ a b c David Ruppert: Trimming and Winsorization. S. 8765.