Der Begriff der Stutzung (englisch truncation) wird in der Stochastik für zwei verschiedene Konzepte verwendet. Beim ersten Konzept ist eine gestutzte Verteilung die Wahrscheinlichkeitsverteilung einer Zufallsvariablen unter der Bedingung auf ein Ereignis , wobei in der Regel ein Teilintervall der reellen Zahlen ist. Beim zweiten Konzept wird aus einer gegebenen Zufallsvariablen eine neue gestutzte Zufallsvariable so gebildet, dass die Wahrscheinlichkeit außerhalb eines beschränkten Intervalls auf den Punkt 0 oder auf die Punkte und gelegt wird.

Gestutzte Verteilung als bedingte Verteilung

Bearbeiten

Definition

Bearbeiten

Die reellwertige Zufallsvariable   besitze die Wahrscheinlichkeitsverteilung   auf dem Messraum  , wobei   die Borelsche σ-Algebra auf   bezeichnet. Es sei   mit  . Die auf   gestutzte (oder eingeschränkte) Verteilung (englisch truncated distribution) ist dann durch die bedingten Wahrscheinlichkeiten

 

gegeben.

Bezeichnungen

Bearbeiten

Häufig ist die Menge   ein Intervall der Form  ,   mit   oder  . Bei einer Stutzung auf das Intervall   nennt man die Verteilung einseitig bei   nach oben gestutzt[1] oder rechtsseitig gestutzt[2]. Bei einer Stutzung auf das Intervall   nennt man die Verteilung einseitig bei   nach unten gestutzt[1] oder linksseitig gestutzt[2]. Bei einer Stutzung auf das Intervall   nennt man die Verteilung zweiseitig bei   nach unten gestutzt und bei   nach oben gestutzt[1] oder zweiseitig gestutzt[3]. Manchmal wird eine gestutzte Verteilung auch als trunkierte Verteilung[4] bezeichnet.

Eigenschaften

Bearbeiten
  •   ist eine Wahrscheinlichkeitsverteilung auf dem Messraum   mit  , so dass   einen Wahrscheinlichkeitsraum bildet.
  • Es gilt  
  • In einer eher in der Statistik üblichen Schreibweise ist
 
  • In maßtheoretischer Interpretation ist   ein gegebener Wahrscheinlichkeitsraum, die Zufallsvariable   eine  -messbare Abbildung und
 

Beispiel

Bearbeiten
  • Wenn eine Poissonverteilung auf   gestutzt wird, dann entsteht eine positive Poisson-Verteilung.
  • Wenn eine Standardnormalverteilung auf   gestutzt wird, dann entsteht eine Chi-Verteilung mit einem Freiheitsgrad. Dies ist die Verteilung von  , wenn   standardnormalverteilt ist.[5]
  • Häufig ist die Menge   ein Intervall der Form  ,   mit   oder  . In diesen Fällen gibt es explizite Formeln, um die Verteilungsfunktion   der gestutzten Verteilung   durch die Verteilungsfunktion   von   und die Koeffizienten   und   darzustellen.[6] Falls   eine stetige Zufallsvariable ist, für die eine Dichtefunktion  existiert, gibt es auch Formeln um die Dichtefunktion   aus der Dichtefunktion   zu berechnen.[7]
  • Falls die Zufallsvariable   die Verteilungsfunktion der auf das Intervall   gestutzten Verteilung der Zufallsvariablen   hat, gilt
 [8]
  • Falls die Zufallsvariable   die auf das Intervall   gestutzte Verteilung der diskreten Zufallsvariablen   hat, gilt
 [8]
  • Falls die Zufallsvariable   die auf das Intervall   gestutzte Verteilung der stetigen Zufallsvariablen   mit der Dichtefunktion   hat, ist
 
die Dichtefunktion der Zufallsvariablen  .[8]

Gestutzte Normalverteilung

Bearbeiten

Ein häufig verwendeter Fall einer gestutzten Verteilung ist die auf ein Intervall gestutzte Normalverteilung  . Im Folgenden bezeichnen   und   die Dichtefunktion und die Verteilungsfunktion der Standardnormalverteilung. Für jedes   wird die Bezeichnung   vereinbart.

  • Eine Zufallsvariablen   mit der auf das Intervall   mit   gestutzten Normalverteilung   hat die Verteilungsfunktion
 
die Dichtefunktion
 
den Erwartungswert
 
und die Varianz
 [9]
  • Eine Zufallsvariablen   mit der auf das Intervall   gestutzten Normalverteilung   hat die Verteilungsfunktion
 
die Dichtefunktion
 
den Erwartungswert
 
und die Varianz
 
  • Eine Zufallsvariablen   mit der auf das Intervall   gestutzten Normalverteilung   hat die Verteilungsfunktion
 
die Dichtefunktion
 
den Erwartungswert
 
und die Varianz
 

Anwendungen

Bearbeiten

Die statistische Lebensdaueranalyse (englisch life testing) wird hauptsächlich in der Technik und Biometrie angewendet. Die positive und stetige Zufallsvariable   bezeichne eine zufällige Lebensdauer.

Dann beschreibt für einen Zeitpunkt   die Zufallsvariable   durch negative bzw. positive Werte inwieweit die Lebensdauer den Zeitpunkt   zufällig unter- bzw. überschreitet.

Die zufällige Restlebensdauer bei Erreichen von   ist durch die Verteilung der Zufallsvariablen   unter der Bedingung   bzw. die auf das Intervall   gestutzte Verteilung von   beschrieben.[10]

Ist der Einsatz einer Maschine bis zum Zeitpunkt   geplant, dann interessiert die zufällige Frühausfallzeit, die durch die Verteilung von   unter der Bedingung   bzw. die auf das Intervall   gestutzte Verteilung von   gegeben ist.[11]

Die zufällige Interimslebensdauer zwischen zwei Zeitpunkten   und   mit   ist die Verteilung   unter der Bedingung   bzw. die auf das Intervall   gestutzte Verteilung von   gegeben.[12]

Gestutzte Zufallsvariable als beschränkte Zufallsvariable

Bearbeiten

Gestutzte Zufallsvariablen

Bearbeiten

Bei Konvergenzuntersuchungen für eine Folge von Zufallsvariablen   werden häufig die Zufallsvariablen

 

gebildet und als gestutzte Zufallsvariablen (englisch truncated random variables) bezeichnet.[13][14] Dabei bezeichnet   die Indikatorfunktion der Menge  .

Die so gebildeten Zufallsvariablen sind beschränkt, da   gilt und haben damit eine endliche Varianz und endliche Momente höherer Ordnung. Die Folge   besteht nur aus beschränkten Zufallsvariablen und ist eine Approximation der Folge  . Wenn die Zufallsvariablen   endliche Erwartungswerte haben, gilt die Abschätzung   für hinreichend großes  .[15]

Beim Beweis von Grenzwertsätzen ist die Verwendung in dieser Art gestutzter Zufallsvariablen eine wichtige Beweismethode, die als Stutzungsmethode (englisch method of truncation)[16] oder Abschneidetechnik[17] bekannt ist. Eine typische Anwendung ist der Beweis des schwachen Gesetzes der großen Zahlen in einer allgemeinen Version, die endliche Erwartungswerte, aber keine endlichen Varianzen voraussetzt.[15] In diesem Zusammenhang heißt die Folge   auch gestutzte Version der Folge  .[13]

Die Beschränktheit der Zufallsvariablen   wird dabei dadurch erreicht, dass die außerhalb des Intervalls   liegende Wahrscheinlichkeitsmasse der Stelle 0 zugeordnet wird. Dagegen wird bei der auf das Intervall   gestutzten Verteilung die außerhalb des Intervalls   liegende Wahrscheinlichkeitsmasse gleichmäßig auf das Intervall   verteilt.

Alternative Form der Stutzung einer Folge von Zufallsvariablen im Zusammenhang Untersuchungen der Voraussetzungen für Gesetze der großen Zahlen sind die Stutzung der Zufallsvariablen   in der Form[18]

 

und in der Form[19]

 

Winsorisierte Zufallsvariable

Bearbeiten

Für eine Zufallsvariable   und ein Intervall   mit   ist

 

die auf das Intervall   winsorisierte Zufallsvariable. Dabei werden Werte von  , die kleiner als   sind, der Stelle   und Werte von  , die größer als   sind, der Stelle   zugeordnet. Die neu gebildete Zufallsvariable ist beschränkt mit Werten in  .[20]

Unterschied der Konzepte

Bearbeiten

Der Unterschied der beiden Konzepte sei an einer standardnormalverteilten Zufallsvariable   mit der Verteilungsfunktion   erläutert.

  • Die auf das Intervall   gestutzte Verteilung hat die Verteilungsfunktion
 

Dabei gilt  .

  • Die durch   definierte Zufallsvariable ist beschränkt, da sie nur Wert im Intervall   annimmt, und hat die Verteilungsfunktion
 

Während die Verteilungsfunktion   stetig ist, hat die Verteilungsfunktion von   die Sprungstelle 0, an der diese um den Wert   springt, es gilt also  .

In der Literatur kommt es manchmal zur Konfusion beider Konzepte. Beispielsweise wird ausgehend von einer Zufallsvariablen   und einem Intervall   die Zufallsvariable   definiert und als auf   gestutzte Zufallsvariable bezeichnet, dann aber die Verteilungsfunktion der auf   gestutzten Verteilung (im Sinn einer bedingten Verteilung) angegeben.[21]

Gestutzte Beobachtungswerte und verwandte Konzepte

Bearbeiten

Gestutzte und zensierte Beobachtungswerte sind Fälle unvollständig erhobener oder berichteter Daten, während bei getrimmten und winsorisierten Beobachtungswerten zunächst eine Stichprobe vollständiger Daten vorliegt, aus der extreme Werte entfernt werden, um eine Verbesserung im Sinn robuster Schätzverfahren zu erreichen.

Gestutzte Beobachtungswerte

Bearbeiten

Gestutzte Beobachtungswerte sind ein Fall unvollständiger berichteter Daten, wobei nur Beobachtungswerte aus einem Teil der Grundgesamtheit vorliegen. Bei der Beobachtung von Lebenszeiten liegen linksseitig gestutzte Beobachtungswerte vor, wenn eine Häufigkeitsverteilung von Lebenszeiten vorliegt, wobei nur Beobachtungseinheiten berücksichtigt sind, deren Lebenszeit einen bestimmten Wert überschreitet. Im Fall von Zufallsstichproben können solche Beobachtungswerte als Realisierungen von Stichprobenvariablen mit einer gestutzten (bedingten) Verteilung beschrieben werden.

Zensierte Beobachtungswerte

Bearbeiten

Bei zensierten Daten (oder Beobachtungswerten) sind einige beobachtete Werte nur unvollständig bekannt. Wenn bei   Untersuchungseinheiten für die Werte eines Merkmals   mit Werten   gemessen werden, so spricht man von an der Stelle   linksseitig zensierten Beobachtungswerten. Falls nur die Werte im Intervall   bekannt sind, so liegen an der Stelle   rechtsseitig zensierte Beobachtungswerte vor. Falls nur die beobachteten Werte im Intervall   bekannt sind, liegen beidseitig durch das Intervall   zensierte Beobachtungwerte vor.[22]

Wenn   eine Zufallsstichprobe ist und nur die Realisierungen in einem vor der Stichprobenziehung fixierten Intervall   bekannt sind, so spricht man von einer linksseitig zensierten Stichprobe vom Typ I. Dabei ist die Anzahl   der unterhalb von   liegenden Beobachtungswerte die Realisierung einer Zufallsgröße.[23] Von einer linksseitig zensierten Stichprobe vom Typ II spricht man, wenn die Anzahl   vorgegeben ist und sich die Grenze   zufällig ergibt. Dabei liegen nur   Beobachtungswerte vor.[23] Analog werden die Begriffe der rechtsseitig und beidseitig zensierten Stichprobe verwendet.

Zensierte Stichproben spielen eine Rolle bei der Lebensdaueranalyse und Zuverlässigkeitsanalyse in der Biometrie und Technik, bei der die Beobachtungsdauer begrenzt ist. Wenn die Beobachtungsdauer durch einen festen Abbruchzeitpunkt begrenzt ist, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ I; wenn noch einer vorgegebenen Anzahl von Ausfällen abgebrochen wird, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ II.[24]

Zensierte Stichproben vom Typ I werden manchmal als gestutzte Stichproben bezeichnet.[23]

Getrimmte Beobachtungswerte

Bearbeiten

Für Stichprobenwerte   entstehen symmetrisch getrimmte Stichprobenwerte, wenn für ein   die jeweils   kleinsten und   größten Werte entfernt werden, so dass die verbliebene Stichprobe aus   Werten besteht.[25] Der arithmetische Mittelwert der verbliebenen Werte

 ,

heißt dann  -getrimmter Mittelwert mit  .[25]

Dabei kann der getrimmte Mittelwert im Fall   und   als Mittelwert der auf das Intervall   gestutzten empirischen Verteilung interpretiert werden. Die empirische Verteilung der beobachteten Werte ist

 .

Durch Stutzung auf   ergibt sich

 

und damit die empirische Verteilung für die   beobachteten Werte  , die sich im Intervall   befinden.

Winsorisierte Beobachtungswerte

Bearbeiten

Aus den Stichprobenwerten   wird für   die winsorisierte Stichprobe gebildet, indem die   kleinsten Werte auf den nächstgrößeren Wert   erhöht werden und die   größten Wert auf den nächstkleineren Wert   reduziert werden.[25] Der arithmetische Mittelwert dieser Werte ist der winsorisierte Mittelwert

 .

Literatur

Bearbeiten
  • P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146–148.
  • Janos Galambos: Truncation Methods in Probability. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, Truncation Methods in Probability , S. 8773–8775, doi:10.1002/0471667196.
  • David Ruppert: Trimming and Winsorization. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Band 14. Wiley, New York 2006, ISBN 978-0-471-15044-2, S. 8765–8770, doi:10.1002/0471667196.

Einzelnachweise

Bearbeiten
  1. a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147.
  2. a b Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 150, doi:10.1524/9783486710540.
  3. Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik – Lehr- und Handbuch der angewandten Statistik. 15., überarbeitete und wesentlich erweiterte Auflage. Oldenbourg, München 2009, ISBN 978-3-486-59028-9, S. 149, doi:10.1524/9783486710540.
  4. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, S. 459, doi:10.1007/978-3-642-01837-4.
  5. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, χ-Verteilung, S. 58.
  6. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 147 (Bei der Verwendung der Formeln ist zu beachten, dass in dieser Quelle eine Verteilungsfunktion linksseitig stetig definiert ist).
  7. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 147-148.
  8. a b c Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 220.
  9. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Gestutzte Verteilung (eingeschränkte Verteilung), S. 146.
  10. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 863–864.
  11. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 865–866.
  12. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 866–867.
  13. a b Sidney I. Resnick: A Probability Path. Birkhäuser, Boston / Basel / Berlin, ISBN 0-8176-4055-X, S. 203, doi:10.1007/978-0-8176-8409-9.
  14. Joseph P. Romano, Andrew F. Siegel: Counterexamples in Probability and Statistics. Chapman & Hall, New York / London 1986, ISBN 0-412-98901-8, S. 110.
  15. a b Janos Galambos: Truncation Methods in Probability. S. 8774.
  16. Janos Galambos: Truncation Methods in Probability. S. 8775.
  17. Ludger Rüschendorf: Wahrscheinlichkeitstheorie (= Springer Lehrbuch Masterclass). Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-48936-9, S. 240, doi:10.1007/978-3-662-48937-6.
  18. Michael A. Proschan, Pamela A. Shaw: Essentials of Probability Theory for Statisticians. CRC Press, Boca Raton 2016, ISBN 978-1-4987-0419-9, S. 139–140.
  19. Jordan Stoyanov: Counterexamples in Probability (= Dover Books on Mathematics). 3. Auflage. Dover Publications, New York 2013, ISBN 978-0-486-49998-7, Abschn. 17.3, S. 186–187.
  20. Janos Galambos: Truncation Methods in Probability. S. 8773.
  21. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 221–222.
  22. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 216.
  23. a b c P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 596.
  24. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Zensierte Stichprobe (censored sample), S. 597.
  25. a b c David Ruppert: Trimming and Winsorization. S. 8765.