Mallows’ Cp-Statistik
Mallows’ Cp-Statistik, benannt nach Colin Lingwood Mallows, ist ein globales Gütemaß, das die Güte der Anpassung einer Regression bewertet. Es wird vor allem im Kontext einer Modellselektion beziehungsweise einer Variablenselektion verwendet, bei der es Ziel ist, die beste Untermenge der gesamten Prädiktoren zu finden, die die beste Vorhersage liefern. Ein kleiner Wert von bedeutet, dass das Model relativ präzise ist.
Im Spezialfall einer linearen Regression ist Mallows’ -Statistik äquivalent zum AIC (Akaike-Informationskriterium).
Definition und Eigenschaften
BearbeitenMallows’ -Statistik adressiert das Problem der Überanpassung eines Modells, bei der die Residuenquadratsumme immer kleiner wird, je mehr Variablen man zu dem Modell hinzufügt. Möchte man also das Modell auswählen, welches die kleinste Residuenquadratsumme besitzt, wird man immer das Modell mit allen Variablen wählen.
Mallows’ -Statistik nutzt stattdessen den mittleren quadratischen Prognosefehler (englisch mean squared prediction error, kurz: MSPE):
- ,
wobei der angepasste Wert aus einem Regressionsmodell mit j Variablen, der Erwartungswert dieses Falls und die Varianz der Fehlerterme ist. Der mittlere quadratische Prognosefehler wird nicht automatisch kleiner, je mehr Variablen man zum Modell hinzufügt.
Werden Prädiktoren aus einer Gesamtmenge von ausgewählt, dann ist die -Statistik für diese Prädiktoren für gewöhnlich definiert als:
- ,
wobei
- die Residuenquadratsumme für ein Modell mit Prädiktoren,
- der vorhergesagte Wert der -ten Beobachtung mit Prädiktoren,
- die Mittlere quadratische Abweichung nach einer Regressionsanalyse auf dem vollständigen Datensatz mit Prädiktoren,
- und die Anzahl der Beobachtungen ist.