In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.

Definition

Bearbeiten

Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:

 ,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt   und   der Vektor der Regressionskoeffizienten ist (hierbei ist   die Anzahl der zu schätzenden unbekannten Parameter und   die Anzahl der erklärenden Variablen), und   die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann  , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

 ,

wobei   die Prädiktionsmatrix darstellt. Das  te Diagonalelement von   ist gegeben durch  , wobei   die  -te Zeile der Datenmatrix   ist.[1] Die Werte werden auch als „Hebelwerte“ der  ten Beobachtung bezeichnet. Um den Einfluss eines Punktes   zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf   und  . Der Schätzer von  , der dadurch gewonnen wird, dass die  te Beobachtung   ausgelassen wird, ist gegeben durch  .[2] Man kann   mit   mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]

 ,

wobei   die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß   ist proportional zum gewöhnlichen euklidischen Abstand zwischen   und  . Daher ist   groß, wenn die Beobachtung   eine substantiellen Einfluss auf sowohl  , als auch   hat.

Eine numerisch einfachere Darstellung von   ist gegeben durch:[5]

 ,

wobei   die studentisierten Residuen   darstellen.

Erkennen von stark einflussreichen Beobachtungen

Bearbeiten

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel   vorgeschlagen.[6] Andere Autoren haben   vorgeschlagen, wobei   die Anzahl der Beobachtungen ist.[7]

Siehe auch

Bearbeiten

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
  4. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  5. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  6. R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
  7. Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.