James-Stein-Schätzer

Schätzungsfunktionen einer mehrdimensionalen Normalverteilung

James-Stein-Schätzer sind Schätzfunktionen des Erwartungswertvektors einer mehrdimensionalen Normalverteilung. Wenn diese Normalverteilung mindestens dreidimensional ist, sind James-Stein-Schätzer bzgl. des mittleren quadratischen Fehlers gleichmäßig besser als das üblicherweise als Schätzer benutzte arithmetische Mittel. Das arithmetische Mittel ist also im Sinne der Entscheidungstheorie für Dimensionen größer als zwei keine zulässige Entscheidungsfunktion für den Erwartungswertvektor der Normalverteilung. Diese Tatsache wurde 1956 von Charles Stein entdeckt.[1] Der erste James-Stein-Schätzer geht auf eine Arbeit von W. James und C. Stein aus dem Jahre 1961 zurück.[2] Der James-Stein Schätzer steht in enger Verbindung zur Minimierung der KL-Divergenz[3][4] bzw. zu Regularisierung.

Struktur eines James-Stein-Schätzers

Bearbeiten

Sei   ein  -dimensionaler normalverteilter Vektor mit stochastisch unabhängigen Komponenten, die die Varianz Eins haben. Der Erwartungswertvektor   soll geschätzt werden. In naheliegender Weise wird dazu das arithmetische Mittel   benutzt, denn es ist der gleichmäßig beste erwartungstreue Schätzer für  . Eine spezielle James-Stein-Schätzung ist die folgende:

 .

  ist nicht erwartungstreu. Da komponentenweise   betragsmäßig kleiner als   ist, wird   unterschätzt,   ist also ein sogenannter Schrumpfungs-Schätzer (engl. shrinkage). Der Schrumpfungsfaktor   ist so gewählt, dass der mittlere quadratische Fehler des Schätzers trotz Bias kleiner ist als beim erwartungstreuen  . Der Schätzer   hat zwar eine kleinere quadratische Abweichung und ist somit zwar besser als  , ist aber selbst auch kein zulässiger Schätzer.[5]

Verallgemeinerungen

Bearbeiten

Die Annahme „Varianz gleich Eins“ ist oben nur zur Vereinfachung gemacht worden. Schon James und Stein gaben Alternativen zu   an und erweiterten die Untersuchungen auf lineare Regressionsmodelle mit mindestens drei Regressionsparametern[2]. Es ist schwer explizit zulässige Schätzer für   zu finden, siehe aber[6][7].

Stein-Paradoxon

Bearbeiten

Der James-Stein-Schätzer hat anfangs zu kontroversen Diskussionen geführt, man sprach sogar vom Stein-Paradoxon[8][9]. Das kann man an folgendem Beispiel erkennen. Sei   dreidimensional mit den Komponenten

  Gewicht einer Kiwi-Frucht aus Neuseeland
  Gewicht einer Banane aus Brasilien
  Gewicht eines Apfels aus Deutschland

Wir nehmen an, dass   (zumindest näherungsweise) normalverteilt ist und dass (wenig überraschend) die drei Komponenten stochastisch unabhängig voneinander sind. Dann ist es durchaus überraschend, dass man die Schätzung   verbessern kann, indem beispielsweise zur Schätzung des Erwartungswertes des Kiwi-Gewichtes im Schrumpfungsfaktor auch die davon unabhängigen Bananen- und Apfeldaten benutzt werden. Die Überraschung relativiert sich allerdings etwas, wenn man betont, dass der „Stein-Effekt“ nur eintritt, wenn man die Schätzung des Vektors   unbedingt (warum auch immer) mit einem gemeinsamen Kriterium für alle drei Komponenten bewerten will. Die Schätzung jeder Komponente   einzeln bewertet führt natürlich zum eindimensionalen Fall und dazu, dass   zulässig ist, also durch keine bessere Schätzung ersetzt werden kann. Eine gute Interpretation gelingt auch durch empirisch-Bayessche Argumente[10].

Einzelnachweise

Bearbeiten
  1. Stein, C. (1956), Inadmissibility of the usual estimator for the mean of a multivariate normal distribution, Proc. Third Berkeley Symp. Math. Statist. Prob. 1, 197–206,
  2. a b James, W. and Stein, C. (1961), Estimation with quadratic loss, Proc. Fourth Berkeley Symp. Math. Statist. Prob. 1, 361–379
  3. Estimation in a linear regression model under the Kullback–Leibler loss and its application to model selection Tatsuya Kubokawa, Hisayuki Tsukuma https://www.sciencedirect.com/science/article/abs/pii/S0378375806002813
  4. Stein Estimation and Prediction : A Synthesis Malay Ghosh Volume 61, Issue 1–4 https://doi.org/10.1177/0008068320090105
  5. Anderson, T. W. (1984), An Introduction to Multivariate Statistical Analysis (2nd ed.), New York: John Wiley & Sons
  6. Brown, L. D. (1966), On the admissibility of invariant estimators of one or more location parameters, Annals of Mathematical Statistics, 37 (5), 1087–1136
  7. Alam, K. (1973), A family of admissible minimax estimators of the mean of a multivariate normal distribution, Annals of Statistics 1, 517–525
  8. Efron, B. and Morris, C. (1977), Stein's paradox in statistics, Scientific American, 236 (5), 119–127
  9. Samworth, R. J. (2012), Stein's Paradox, Eureka, 62: 38–41
  10. Efron, B. and Morris, C. (1973). Stein's Estimation Rule and Its Competitors—An Empirical Bayes Approach. Journal of the American Statistical Association. 68 (341), 117–130