Kerndichteschätzer

statistischer Schätzer

Die Kerndichteschätzung (auch Parzen-Fenster-Methode;[1] englisch kernel density estimation, KDE) ist ein statistisches Verfahren zur Schätzung der Wahrscheinlichkeitsverteilung einer Zufallsvariablen.

In der klassischen Statistik geht man davon aus, dass statistische Phänomene einer bestimmten Wahrscheinlichkeitsverteilung folgen und dass sich diese Verteilung in Stichproben realisiert. In der nichtparametrischen Statistik werden Verfahren entwickelt, um aus der Realisierung einer Stichprobe die zu Grunde liegende Verteilung zu identifizieren. Ein bekanntes Verfahren ist die Erstellung eines Histogramms. Nachteil dieses Verfahrens ist, dass das resultierende Histogramm nicht stetig ist. Vielfach ist aber davon auszugehen, dass die zu Grunde liegende Verteilung eine stetige Dichtefunktion hat, etwa die Verteilung von Wartezeiten in einer Schlange oder der Rendite von Aktien.

Die im Folgenden beschriebenen Kerndichteschätzer sind dagegen Verfahren, die eine stetige Schätzung der unbekannten Verteilung ermöglichen. Genauer: Ein Kerndichteschätzer ist ein gleichmäßig konsistenter, stetiger Schätzer der Dichte eines unbekannten Wahrscheinlichkeitsmaßes durch eine Folge von Dichten.

Beispiel

Bearbeiten
 
Kerndichteschätzung

Im folgenden Beispiel wird die Dichte einer Standardnormalverteilung (schwarz gestrichelt) durch Kerndichteschätzung geschätzt. In der konkreten Situation des Schätzens ist diese Kurve natürlich unbekannt und soll durch die Kerndichteschätzung geschätzt werden. Es wurde eine Stichprobe (vom Umfang 100) generiert, die gemäß dieser Standardnormalverteilung verteilt ist. Mit verschiedenen Bandbreiten   wurde dann eine Kerndichteschätzung durchgeführt. Man sieht deutlich, dass die Qualität des Kerndichteschätzers von der gewählten Bandbreite abhängt. Eine zu kleine Bandbreite erscheint „verwackelt“, während eine zu große Bandbreite zu „grob“ ist.

 
Kerndichteschätzung mit Cauchy-Kern

Mit Kern wird die stetige Lebesgue-Dichte   eines fast beliebig zu wählenden Wahrscheinlichkeitsmaßes   bezeichnet. Mögliche Kerne sind etwa:

  • Gauß-Kern  
  • Cauchy-Kern  
  • Picard-Kern  
  • Epanechnikov-Kern  

Diese Kerne sind Dichten von ähnlicher Gestalt wie der abgebildete Cauchy-Kern. Der Kerndichteschätzer stellt eine Überlagerung in Form der Summe entsprechend skalierter Kerne dar, die abhängig von der Stichprobenrealisierung positioniert werden. Die Skalierung und ein Vorfaktor gewährleisten, dass die resultierende Summe wiederum die Dichte eines Wahrscheinlichkeitsmaßes darstellt. Der folgenden Abbildung wurde eine Stichprobe vom Umfang 10 zu Grunde gelegt, die als schwarze Kreise dargestellt ist. Darüber sind die Cauchy-Kerne (grün gestrichelt) dargestellt, aus deren Überlagerung der Kerndichteschätzer resultiert (rote Kurve).

Der Epanechnikov-Kern ist dabei derjenige Kern, der unter allen Kernen die mittlere quadratische Abweichung des zugehörigen Kerndichteschätzers minimiert.

Der Kerndichteschätzer

Bearbeiten

Definition

Bearbeiten

Ist   eine Stichprobe,   ein Kern, so wird der Kerndichteschätzer zur Bandbreite   definiert als:

 
 .

Satz von Nadaraya

Bearbeiten

Die Wahl der Bandbreite   ist entscheidend für die Qualität der Approximation. Mit entsprechender, in Abhängigkeit vom Stichprobenumfang gewählter Bandbreite, konvergiert die Folge   der Kerndichteschätzer fast sicher gleichmäßig gegen die Dichte des unbekannten Wahrscheinlichkeitsmaßes. Diese Aussage wird im Satz von Nadaraya konkretisiert. Der Satz liefert die Aussage, dass mit entsprechend gewählter Bandbreite eine beliebig gute Schätzung der unbekannten Verteilung durch Wahl einer entsprechend großen Stichprobe möglich ist:[2]

Sei   ein Kern von beschränkter Variation. Die Dichte   eines Wahrscheinlichkeitsmaßes sei gleichmäßig stetig. Mit   und   seien für   die Bandbreiten   definiert. Dann konvergiert die Folge der Kerndichteschätzer   mit Wahrscheinlichkeit 1 gleichmäßig gegen  , d. h.

 .

Anwendung

Bearbeiten

Die Kerndichteschätzung wird von Statistikern seit etwa 1950 eingesetzt und wird in der Ökologie häufig zur Beschreibung des Aktionsraumes eines Tieres verwendet, seitdem diese Methode in den 1990ern in den Wissenschaftszweig Einzug hielt. Damit kann die Wahrscheinlichkeit errechnet werden, mit der ein Tier sich in einem bestimmten räumlichen Bereich aufhält. Aktionsraum-Voraussagen werden durch farbige Linien (z. B. Isolinien) dargestellt.[3] Diese Anwendung liegt auch der seit etwa 2010 üblichen „Heatmap“-Visualisierung des Aufenthaltsorts von Mannschaftsspielern (z. B. im Fußball) während der Spielzeit zugrunde.

Siehe auch

Bearbeiten

Einzelnachweise

Bearbeiten
  1. E. Parzen: On estimation of a probability density function and mode. In: Ann. Math. Stat., 33, 1962, S. 1065–1076. doi:10.1214/aoms/1177704472
  2. É. Nadaraya: On Non-Parametric Estimates of Density Functions and Regression Curves. In: Theory of Probability & Its Applications. Band 10, Nr. 1, 1. Januar 1965, ISSN 0040-585X, S. 186–190, doi:10.1137/1110024 (siam.org [abgerufen am 24. Juni 2016]).
  3. Arthur R. Rodgers, John G. Kie: HRT: Home Range Tools for ArcGIS®. User’s Manual. 10. August 2011, S. 6 ff. (lakeheadu.ca [PDF; abgerufen am 24. Oktober 2011]).