Logarithmische Normalverteilung

häufige Zufallsverteilung bei Größen, die beliebige positive Werte annehmen können
(Weitergeleitet von Lognormalverteilung)

Die logarithmische Normalverteilung (kurz Log-Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung für eine Variable, die nur positive Werte annehmen kann. Sie beschreibt die Verteilung einer Zufallsvariablen , wenn die mit dem Logarithmus transformierte Zufallsvariable normalverteilt ist. Sie bewährt sich als Modell für viele Messgrößen in Naturwissenschaften, Medizin und Technik, beispielsweise für Energien, Konzentrationen, Längen und Mengenangaben.

In Analogie zu einer normalverteilten Zufallsvariablen, die nach dem zentralen Grenzwertsatz als Summe vieler verschiedener Zufallsvariablen aufgefasst werden kann, entsteht eine logarithmisch normalverteilte Zufallsvariable durch das Produkt vieler positiver Zufallsvariablen. Somit ist die Log-Normalverteilung die einfachste Verteilungsart für multiplikative Zufallsprozesse. Da multiplikative Gesetze in den Naturwissenschaften, der Ökonomie und der Technik eine größere Rolle spielen als additive, ist die Log-Normalverteilung in vielen Anwendungen diejenige, die der Theorie am besten entspricht – der zweite Grund, weshalb sie vielfach anstelle der gewöhnlichen, additiven Normalverteilung verwendet werden sollte.

Definition

Bearbeiten
 
Dichtefunktion der Log-Normalverteilung (mit  )

Erzeugung

Bearbeiten

Wenn   eine standardnormalverteilte Zufallsvariable ist, dann ist   log-normalverteilt mit den Parametern   und  , geschrieben als  . Alternativ können als Parameter die Größen   und   verwendet werden.   ist ein Skalen-Parameter.   oder ebenso   bestimmt die Form der Verteilung.

Wenn   log-normalverteilt ist, dann ist auch   log-normalverteilt, und zwar mit den Parametern   und   respektive   und  . Ebenso ist   log-normalverteilt, mit den Parametern   und   respektive   und  .

Dichtefunktion

Bearbeiten

Eine stetige, positive Zufallsvariable   unterliegt einer logarithmischen Normalverteilung   mit den Parametern   und  , wenn die transformierte Zufallsvariable   einer Normalverteilung   folgt. Ihre Dichtefunktion ist dann

 ,

wobei   die Dichtefunktion der Standardnormalverteilung bezeichnet.

Verteilungsfunktion

Bearbeiten
 
Verteilungsfunktion der Log-Normalverteilung (mit  )

Damit hat die Log-Normalverteilung für   die Verteilungsfunktion

 ,

wobei   die Verteilungsfunktion der Standardnormalverteilung bezeichnet.

Die Verteilungsfunktion der logarithmischen Normalverteilung erscheint auf logarithmisch geteiltem Wahrscheinlichkeitspapier als Gerade.

Mehrdimensionale log-Normalverteilung

Bearbeiten

Sei   ein mehrdimensional (oder multivariat) normalverteilter Zufallsvektor. Dann ist   (d. h.  ) multivariat log-normalverteilt. Die mehrdimensionale Log-Normalverteilung ist viel weniger bedeutsam als die eindimensionale. Deshalb bezieht sich der nachfolgende Text fast ausschließlich auf den eindimensionalen Fall.

Eigenschaften

Bearbeiten

Quantile

Bearbeiten

Ist   das p-Quantil einer Standardnormalverteilung (d. h.  , wobei   die Verteilungsfunktion der Standardnormalverteilung sei), so ist das p-Quantil der Log-Normalverteilung gegeben durch

 .

Median, multiplikativer Erwartungswert

Bearbeiten

Der Median der logarithmischen Normalverteilung beträgt demnach  . Er wird auch multiplikativer oder geometrischer Erwartungswert genannt (vgl. geometrisches Mittel). Er ist ein Skalen-Parameter, da   gilt.

Multiplikative Standardabweichung

Bearbeiten

In Analogie zum multiplikativen Erwartungswert ist   die multiplikative oder geometrische Standardabweichung. Sie bestimmt (ebenso wie   selbst) die Form der Verteilung. Es gilt  .

Da das multiplikative oder geometrische Mittel einer Stichprobe von lognormalen Beobachtungen (siehe „Parameterschätzung“ unten) selbst log-normalverteilt ist, kann man seine Standardabweichung angeben, sie beträgt  .

Erwartungswert

Bearbeiten

Der Erwartungswert der logarithmischen Normalverteilung beträgt

 .

Der Modus, also der häufigste Wert der Verteilung bzw. der Wert, für den die Dichtefunktion ihr Maximum annimmt, beträgt für die logarithmische Normalverteilung

 .

Varianz, Standardabweichung, Variationskoeffizient

Bearbeiten

Die Varianz ergibt sich zu

 .

Für die Standardabweichung ergibt sich

 .

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten

 .

Die Schiefe ergibt sich zu

 ,

d. h., die Log-Normalverteilung ist rechtsschief.

Je größer die Differenz zwischen Erwartungswert und Median, desto ausgeprägter ist i. a. die Schiefe einer Verteilung. Hier unterscheiden sich diese Parameter um den Faktor  . Die Wahrscheinlichkeit für extrem große Ausprägungen ist also bei der Log-Normalverteilung mit großem   hoch.

Es existieren alle Momente und es gilt:

 .

Die momenterzeugende Funktion und die charakteristische Funktion existieren für die Log-Normalverteilung nicht in expliziter Form.

Die Lognormalverteilung ist ein Beispiel einer Wahrscheinlichkeitsverteilung, die durch die Angabe aller Momente nicht charakterisiert ist, da es andere Wahrscheinlichkeitsverteilungen mit denselben Momenten gibt.[1]

Entropie

Bearbeiten

Die Entropie der logarithmischen Normalverteilung (ausgedrückt in nats) beträgt

 .

Multiplikation von unabhängigen, log-normalverteilten Zufallsvariablen

Bearbeiten

Multipliziert man zwei unabhängige, log-normalverteilte Zufallsvariable   und  , so ergibt sich wieder eine log-normalverteilte Zufallsvariable mit den Parametern   und  , wobei  . Entsprechendes gilt für das Produkt von   solchen Variablen.

Grenzwertsatz

Bearbeiten

Das geometrische Mittel von   unabhängigen, gleich verteilten, positiven Zufallsvariablen zeigt für   genähert eine Log-Normalverteilung, die immer mehr einer gewöhnlichen Normalverteilung gleicht, da   abnimmt.

Erwartungswert und Kovarianzmatrix einer mehrdimensionalen Log-Normalverteilung

Bearbeiten

Der Erwartungswert-Vektor ist

 

und die Kovarianzmatrix

 [2]

Beziehungen zu anderen Verteilungen

Bearbeiten

Beziehung zur Normalverteilung

Bearbeiten

Der Logarithmus einer logarithmisch normalverteilten Zufallsvariablen ist normalverteilt. Genauer: Ist   eine  -verteilte reelle Zufallsvariable (d. h. normalverteilt mit Erwartungswert   und Varianz  ), so ist die Zufallsvariable   log-normalverteilt mit diesen Parametern   und  .

Wenn   und damit   geht, geht die Form der Log-Normalverteilung gegen diejenige einer gewöhnlichen Normalverteilung.

Verteilung mit schweren Rändern

Bearbeiten

Die Verteilung gehört zu den Verteilungen mit schweren Rändern.

Parameterschätzung und Statistik

Bearbeiten

Parameterschätzung

Bearbeiten

Die Schätzung der Parameter aus einer Stichprobe von Beobachtungen erfolgt über die Bestimmung von Mittelwert und (quadrierter) Standardabweichung der logarithmierten Werte:

 .

Die Schätzung der multiplikativen Parameter erfolgt durch   und  .   ist das geometrische Mittel. Seine Verteilung ist log-normal mit multiplikativem Erwartungswert   und geschätzter multiplikativer Standardabweichung (besser als multiplikativer Standardfehler bezeichnet)  .

Wenn keine Einzelwerte vorliegen, sondern nur der Mittelwert   und die empirische Varianz   der nicht logarithmierten Werte bekannt sind, erhält man passende Parameterwerte über

 
  oder direkt  .

Statistik

Bearbeiten

Allgemein erfolgt die statistische Analyse von log-normalverteilten Größen am einfachsten und Erfolg versprechendsten so, dass die Größen logarithmiert werden und auf diese transformierten Werte die Methoden verwendet werden, die auf der gewöhnlichen Normalverteilung beruhen. Im Bedarfsfall werden dann die Ergebnisse, beispielsweise Vertrauens- oder Vorhersage-Intervalle, in die ursprüngliche Skala zurücktransformiert.

Grundlegendes Beispiel dafür ist die Berechnung von Streuungs-Intervallen. Da für eine gewöhnliche Normalverteilung in einem Bereich von   etwa 2/3 (genauer 68 %) und in   95 % der Wahrscheinlichkeit enthalten sind, gilt für die Log-Normalverteilung:

Das Intervall   enthält 2/3
und das Intervall   enthält 95 %

der Wahrscheinlichkeit (und also etwa diese Prozentzahl der Beobachtungen einer Stichprobe). Die Intervalle können in Analogie zu   als   und   notiert werden.

In graphischen Darstellungen (untransformierter) Beobachtungen sollten deshalb solche asymmetrische Intervalle gezeigt werden.[3][4]

Anwendungen

Bearbeiten

Variation in vielen natürlichen Phänomenen lässt sich gut mit der Log-Normalverteilung beschreiben. Dies kann erklärt werden durch die Vorstellung, dass kleine prozentuale Abweichungen zusammenwirken, die einzelnen Effekte sich also multiplizieren. Bei Wachstumsprozessen ist dies besonders naheliegend. Zudem bestehen die Formeln für die meisten grundlegenden Naturgesetze aus Multiplikationen und Divisionen. Auf der logarithmischen Skala ergeben sich dann Additionen und Subtraktionen, und der entsprechende Zentrale Grenzwertsatz führt zur Normalverteilung – zurücktransformiert auf die ursprüngliche Skala also zur Log-Normalverteilung. Diese multiplikative Version des Grenzwertsatzes ist auch als Gesetz von Gibrat bekannt. Robert Gibrat (1904–1980) formulierte es für Unternehmen.[5]

In einigen Wissenschaften ist es üblich, Messgrößen in Einheiten anzugeben, die durch Logarithmieren einer gemessenen Konzentration (Chemie) oder Energie (Physik, Technologie) erhalten werden. So wird der Säuregrad einer wässerigen Lösung durch den pH-Wert gemessen, der als negativer Logarithmus der Wasserstoffionen-Aktivität definiert ist. Eine Lautstärke wird in Dezibel (dB) angegeben, das  , wobei   das Verhältnis des Schalldruckpegels zu einem entsprechenden Referenzwert ist. Analoges gilt für andere Energie-Pegel. In der Finanzmathematik wird ebenfalls oft direkt mit logarithmierten Größen (Preisen, Kursen, Erträgen) gerechnet, siehe unten.

Für solche „bereits logarithmierte“ Größen ist dann die gewöhnliche Normalverteilung oft eine gute Wahl; also wäre hier, wenn man die ursprünglich gemessene Größe betrachten wollte, die Log-Normalverteilung geeignet.

Generell eignet sich die Log-Normalverteilung für Messgrößen, die nur positive Werte annehmen können, also Konzentrationen, Massen und Gewichte, räumliche Größen, Energien usw.

Die folgende Liste zeigt mit Beispielen die breite Palette der Anwendungen der Log-Normalverteilung.

  • Hydrologie: Die Log-Normalverteilung nützt bei der Analyse von Extremwerten wie – beispielsweise – monatliche oder jährliche Maxima der täglichen Regenmenge oder des Abflusses von Gewässern.[7]
  • Ökologie: Die Häufigkeit von Arten zeigt oft eine Log-Normalverteilung.[8]
  • Biologie und Medizin
    • Maße der Größe von Lebewesen (Länge, Hautfläche, Gewicht);[9]
    • Physiologische Größen wie der Blutdruck von Männern und Frauen.[10] Als Konsequenz sollten Referenzbereiche für gesunde Werte auf der Grundlage einer Log-Normalverteilung geschätzt werden.
    • Inkubationszeiten von ansteckenden Krankheiten;[11]
    • In der Neurologie zeigt die Verteilung der Impulsrate von Nervenzellen oft eine log-normale Form, so im Cortex und Striatum[12] und im Hippocampus und im entorhinalen Cortex[13] sowie in anderen Hirnregionen.[14][15] Ebenso für weitere neurobiologische Größen.[16]
    • Sensitivität gegenüber Fungiziden;[17]
    • Bakterien auf Pflanzenblättern:[18]
    • Permeabilität von Zellwänden und Mobilität von gelösten Stoffen:[19]
  • Technologie
    • In der Modellierung der Zuverlässigkeit werden Reparaturzeiten als log-normalverteilt beschrieben.[27]
    • Internet: Die Dateigröße von öffentlich verfügbaren Audio- und Video-Dateien ist genähert log-normalverteilt.[28] Analoges gilt für den Datenverkehr.[29]

Literatur

Bearbeiten
  • Lognormal Distributions, Theory and Applications (= Statistics: Textbooks and Monographs. Band 88). Marcel Dekker, Inc., 1988, ISBN 978-0-8247-7803-3, S. xvi+387.
  • j Aitchison, J A C Brown: The Lognormal Distribution. Cambridge University Press, 1957.
  • Eckhard Limpert, Werner A Stahel, Markus Abbt: Lognormal distributions across the sciences: keys and clues. In: BioScience. Band 51, Nr. 5, 2001, S. 341–352, doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2 (PDF Online).

Einzelnachweise

Bearbeiten
  1. C. C. Heyde: On a property of the lognormal distribution. In: Journal of the Royal Statistical Society, Series B. Band 25, Nr. 2, 1963, S. 392–393.
  2. Leigh Halliwell: The Lognormal Random Multivariate. Casualty Actuarial Society E-Forum, Arlington VA, Spring 2015. 2015 (englisch, casact.org [PDF]).
  3. Eckhard Limpert, Werner A Stahel, Markus Abbt: Lognormal distributions across the sciences: keys and clues. In: BioScience. Band 51, Nr. 5, 2001, S. 341–352, doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
  4. Eckhard Limpert, Werner A Stahel: Problems with Using the Normal Distribution – and Ways to Improve Quality and Efficiency of Data Analysis. In: PlosOne. Band 51, Nr. 5, 2011, S. 341–352, doi:10.1641/0006-3568(2001)051[0341:LNDATS]2.0.CO;2.
  5. John Sutton: Gibrat's Legacy. In: Journal of Economic Literature. Band 32, Nr. 1, 1997, S. 40–59.
  6. L H Ahrens: The log-normal distribution of the elements (A fundamental law of geochemistry and its subsidiary) journal. Band 5, 1954, S. 49–73.
  7. R.J. Oosterbaan: Drainage Principles and Applications, Publication 16. International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands 1994, ISBN 978-90-70754-33-4, 6: Frequency and Regression Analysis, S. 175–224 (Online [PDF]).
  8. G Sugihara: Minimal community structure: An explanation of species abundance patterns. In: American Naturalist. Band 116, 1980, S. 770–786, JSTOR:2460407.
  9. Julian S Huxley: Problems of relative growth. London, 1932, ISBN 978-0-486-61114-3.
  10. Robert W. Makuch, D H Freeman, M F Johnson: Justification for the lognormal distribution as a model for blood pressure. In: Journal of Chronic Diseases. Band 32, Nr. 3, 1979, S. 245–250, doi:10.1016/0021-9681(79)90070-5.
  11. P E Sartwell: The incubation period and the dynamics of infectious disease. In: American Journal of Epidemiology. Band 83, 1966, S. 204–216.
  12. Gabriele Scheler, Johann Schumann: Diversity and stability in neuronal output rates. 36th Society for Neuroscience Meeting, Atlanta. 8. Oktober 2006 (englisch).
  13. Kenji Mizuseki, György Buzsáki: Preconfigured, skewed distribution of firing rates in the hippocampus and entorhinal cortex. In: Cell Reports. Band 4, Nr. 5, 12. September 2013, ISSN 2211-1247, S. 1010–1021, doi:10.1016/j.celrep.2013.07.039, PMID 23994479, PMC 3804159 (freier Volltext).
  14. György Buzsáki, Kenji Mizuseki: The log-dynamic brain: how skewed distributions affect network operations. In: Nature Reviews. Neuroscience. Band 15, Nr. 4, 2017, ISSN 1471-003X, S. 264–278, doi:10.1038/nrn3687, PMID 24569488, PMC 4051294 (freier Volltext).
  15. Adrien Wohrer, Mark D Humphries, Christian K Machens: Population-wide distributions of neural activity during perceptual decision-making. In: Progress in Neurobiology. Band 103, 2013, ISSN 1873-5118, S. 156–193, doi:10.1016/j.pneurobio.2012.09.004, PMID 23123501, PMC 5985929 (freier Volltext).
  16. Gabriele Scheler: Logarithmic distributions prove that intrinsic learning is Hebbian. In: F1000 Research. Band 6, 2017, S. 1222, doi:10.12688/f1000research.12130.2, PMID 29071065, PMC 5639933 (freier Volltext).
  17. R A Romero, T B Sutton: Sensitivity of Mycosphaerella fijiensis, causal agent of black sigatoka of banana, to propiconozole. In: Phytopathology. Band 87, 1997, S. 96–100.
  18. S S Hirano, E V Nordheim, D C Arny, C D Upper: Log-normal distribution of epiphytic bacterial populations on leaf surfaces. In: Applied and Environmental Microbiology. Band 44, 1982, S. 695–700.
  19. P Baur: Log-normal distribution of water permeability and organic solute mobility in plant cuticles. In: Plant, Cell and Environment. Band 20, 1997, S. 167–177.
  20. Pareto's law of income distribution: Evidence for Germany, the United Kingdom, and the United States. 2005; (englisch).
  21. Souma Wataru: Physics of Personal Income. Abgerufen am 22. Februar 2002 (englisch).
  22. F Black, M Scholes: The Pricing of Options and Corporate Liabilities. In: Journal of Political Economy. Band 81, Nr. 3, 1973, S. 637, doi:10.1086/260062.
  23. Benoit Mandelbrot: The (mis-)Behaviour of Markets. Basic Books, 2004, ISBN 978-0-465-04355-2 (Google Books).
  24. Sobkowicz Pawel et al.: Lognormal distributions of user post lengths in Internet discussions - a consequence of the Weber-Fechner law? In: EPJ Data Science. 2013.
  25. Peifeng Yin, Ping Luo, Wang-Chien Luo, Min Wang: Silence is also evidence: interpreting dwell time for recommendation from psychological perspective. ACM International Conference on KDD. 2013 (englisch, mldm.ict.ac.cn (Memento des Originals vom 10. Mai 2017 im Internet Archive) [abgerufen am 26. August 2019]).
  26. What is the average length of a game of chess? In: chess.stackexchange.com. Abgerufen am 14. April 2018 (englisch).
  27. Patrick O'Connor, Andre Kleyner: Practical Reliability Engineering. John Wiley & Sons, 2011, ISBN 978-0-470-97982-2, S. 35.
  28. C Gros, G. Kaczor, D Markovic: Neuropsychological constraints to human data production on a global scale. In: The European Physical Journal B. Band 85, Nr. 28, 2012, S. 28, doi:10.1140/epjb/e2011-20581-3, arxiv:1111.6849, bibcode:2012EPJB...85...28G.
  29. Mohammed Alamsar: On the Distribution of Traffic Volumes in the Internet and its Implications. 2019; (englisch).