Der Hosmer-Lemeshow-Test wird zur Bewertung der Anpassungsgüte von Klassifikationsmodellen, wie beispielsweise der logistischen Regression, verwendet.[1][2] Die Berechnung der Testgröße beruht auf den beobachteten Werten von Bernoulli-verteilten Zufallsvariablen mit unbekannten Eintrittswahrscheinlichkeiten (Bernoulli-Parametern) und den aus einer logistischen Regression mit Hilfe der Maximum-Likelihood-Methode gewonnenen Schätzwerten für diese unbekannten Eintrittswahrscheinlichkeiten. Dabei bezeichnet die Anzahl der Beobachtungen (Untersuchungseinheiten). Die Grundidee des Tests ist, aus den beobachteten Werten und den geschätzten Wahrscheinlichkeiten eine Testgröße zu bilden, mit deren Hilfe auf die Gültigkeit der Modellannahmen geschlossen werden kann.

Der Hosmer-Lemeshow-Test wird zur Überprüfung der Kalibrierung eines Modells eingesetzt[3].

Kalibrierungskurven

Hosmer-Lemeshow-Test für die logistische Regression

Bearbeiten

Testidee

Bearbeiten

Mit

 

seien die mit Hilfe der Maximum-Likelihood-Methode aus einem logistischen Regressionsmodell gewonnenen Schätzwerte für die unbekannten Eintrittswahrscheinlichkeiten   bezeichnet.

Die Grundidee des Hosmer-Lemeshow-Tests ist, dass sich für eine Teilmenge   mit   Elementen, die ähnliche geschätzte Eintrittswahrscheinlichkeiten haben, die beobachtete relative Häufigkeit   der eingetretenen Ereignisse und die durchschnittliche durch die logistische Regression geschätzte Eintrittswahrscheinlichkeit   nicht zu stark unterscheiden und dass sich diese Abweichungen durch eine Wahrscheinlichkeitsverteilung beschreiben lassen, falls das Modell richtig ist.

Testgröße

Bearbeiten

Für die Testdurchführung werden die Untersuchungseinheiten in   disjunkte Gruppen aufgeteilt, wobei die Anzahl der Gruppen abhängig von den Beobachtungswerten fixiert werden. Eine typische Gruppenzahl ist  . Die Zuordnung zu den Gruppen erfolgt anhand der geschätzten Eintrittswahrscheinlichkeiten  . Dabei gibt es zwei Methoden für die Gruppenbildung. Bei der ersten Methode erfolgt die Zuordnung anhand von vorgegebenen festen Intervalle, z. B.  ,  ,  . Bei der zweiten Methode werden die Intervallgrenzen durch die Dezile der geschätzten Eintrittswahrscheinlichkeiten festgelegt, so dass etwa 10 gleichgroße Gruppen entstehen. Die so gebildeten Gruppen sind durch   disjunkte Teilmengen   mit   charakterisiert, die jeweils die Indizes derjenigen Untersuchungseinheiten enthalten, die zur Gruppe   gehören. Diese beiden Varianten sind der Grund für die Abschnittsüberschrift 5.2.2 The-Hosmer-Lemeshow-Tests.[2]

Die Testgröße ist

 

Dabei bezeichnen

 

die Anzahl der Beobachtungseinheiten in der Gruppe  ,

 

die Anzahl der beobachteten (englisch observed) Ereignisse in der Gruppe   und

 

die mittlere geschätzte Eintrittswahrscheinlichkeit in der Gruppe  .

Das Produkt   kann als die geschätzte erwartete (englisch expected) Anzahl der Ereignisse in der Gruppe   interpretiert werden. Damit ergibt sich für die Hosmer-Lemeshow-Prüfgröße die äquivalente Darstellung

 

die an eine Chi-Quadrat-Statistik erinnert. Im Unterschied zu dieser hängen alle Größen von den Beobachtungen ab, da die   nicht, wie bei der Chi-Quadrat-Statistik die aufgrund eines Modells erwarteten Häufigkeiten, sondern geschätzte erwartete Häufigkeiten sind, die über die geschätzten Eintrittswahrscheinlichkeiten   von allen beobachteten Werten der erklärten und der erklärenden Variablen abhängen.

Eine weitere in der Literatur anzutreffende äquivalente Darstellung[4] der Testgröße   mit   anstelle von   Summenaden ergibt sich aus einer Unterscheidung zwischen Erfolgen ( ) und Misserfolgen ( ). Die Hosmer-Lemeshow-Prüfgröße wird dann als

 

geschrieben, wobei – ergänzend zu obiger Notation –

 

die Anzahl der beobachteten Misserfolge in Gruppe   ist und

 

die geschätzte erwartete Anzahl der Misserfolge in der Gruppe   ist.

Die beiden Varianten der Testgröße, die sich aus der Gruppenbildung mit festen Grenzen und mit beobachtungsabhängigen Grenzen ergeben, werden in der Literatur häufig mit   und   bezeichnet. Dabei wird häufig weder in der Notation, noch in der Sprechweise zwischen der Testgröße als aus den beobachteten Werten berechneter Zahl und der Teststatistik, die als Stichprobenvariable eine Zufallsvariable mit einer Wahrscheinlichkeitsverteilung ist.

Testdurchführung

Bearbeiten

Hosmer und Lemeshow vertreten die Position, dass die Testgröße   unter sehr allgemeinen Bedingungen der realisierte Wert einer Zufallsvariablen   ist, die bei Richtigkeit des logistischen Regressionsmodells für hinreichend großen Stichprobenumfang näherungsweise einer Chi-Quadrat-Verteilung mit   Freiheitsgraden folgt.

Die berechnete Testgröße   wird daher mit den Quantilen einer Chi-Quadrat-Verteilung mit   Freiheitsgraden verglichen, wobei kleine Werte für eine gute Anpassungsgüte sprechen.

Theoretische Grundlage

Bearbeiten

Anders als sonst bei statistischen Testverfahren üblich, liegt kein bewiesener Satz vor, aus dem hervorgeht, unter welchen Bedingungen eine Teststatistik, deren Realisation die Hosmer-Lemeshow-Testgröße   ist, approximativ oder asymptotisch einer Chi-Quadrat-Verteilung mit   Freiheitsgraden folgt. Die Basis ist vielmehr eine Vermutung, die durch Simulationsuntersuchungen gestützt wird. „Using an extensive set of simulations, Hosmer and Lemeshow (1980) demonstrated that, when   and the fitted model is the correct model, the distribution of   is well approximated by the chi-square distribution with   degrees of freedom  . While not specically examined, it is likely that   also approximated the distribution when  .“[5] Hierbei bezeichnet   die Anzahl der beobachteten Wertekonstellationen der erklärenden Variablen (Kovariablen) (covariate pattern[6]) und   die Anzahl der beobachteten Werte. „This is the case most frequently encountered in practice, when there is at least one continuous covariate in the model.“[7] Jedenfalls setzen damit die Autoren des Tests ein Warnsignal für Anwendungen, bei denen   deutlich kleiner als   ist.

Hosmer-Lemeshow-Test für die multinomiale logistische Regression

Bearbeiten

Eine Verallgemeinerung der logistischen Regression, bei der die erklärte Variable die beiden Wert 0 und 1 annehmen kann, ist die multinomiale logistische Regression, bei der die erklärte Variable Werte in der Menge   annimmt und   die Anzahl der Kategorien ist.[8] Für diesen Fall existiert eine Verallgemeinerung des Hosmer-Lemeshow-Tests.[9][10]

In diesem Fall gibt es   Gruppen und   Kategorien, wobei die Kategorie   als Referenzkategorie dient. Die zu berechnende Testgröße hat dann   Summanden und besitzt die Form

 

wobei die   die beobachteten Ereignisse und   die erwarteten geschätzten Ereignisse in Gruppe   und Kategorie   sind.

Literatur

Bearbeiten
  • Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
  • David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression (= Wiley Series in Probability and Statistics). 3. Auflage. Wiley, Hoboken 2013, ISBN 978-0-470-58247-3, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 157–169, doi:10.1002/9781118548387.
  • David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.

Einzelnachweise

Bearbeiten
  1. David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.
  2. a b David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests.
  3. Yingxiang Huang, Wentao Li, Fima Macheret, Rodney A Gabriel, Lucila Ohno-Machado: A tutorial on calibration measurements and calibration models for clinical prediction models. In: Journal of the American Medical Informatics Association. Band 27, Nr. 4, 2020, S. 621–633, doi:10.1093/jamia/ocz228.
  4. Prabasaj Paul, Michael L. Pennell, Stanley Lemeshow: Standardizing the power of the Hosmer–Lemeshow goodness of fit test in large data sets. In: Statistics in Medicine. Band 32, 2013, S. 67–80, Formel (1), S. 68, doi:10.1002/sim.5525.
  5. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 158.
  6. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 154.
  7. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 155.
  8. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 8.1 The multinomial logistic regression, S. 269–289.
  9. Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
  10. Morten M. Fagerland, David M. Hosmer: A generalized Hosmer–Lemeshow goodness-of-fit test for multinomial logistic regression models. In: The Stata Journal. Band 12, Nr. 3, S. 447–453.