Hosmer-Lemeshow-Test

Der Hosmer-Lemeshow-Test wird zur Bewertung der Anpassungsgüte von Klassifikationsmodellen, wie beispielsweise der logistischen Regression, verwendet.^[1]^[2] Die Berechnung der Testgröße beruht auf den beobachteten Werten $y_{1},\dots ,y_{n}\in \{0,1\}$ von Bernoulli-verteilten Zufallsvariablen $Y_{1},\dots ,Y_{n}$ mit unbekannten Eintrittswahrscheinlichkeiten (Bernoulli-Parametern) und den aus einer logistischen Regression mit Hilfe der Maximum-Likelihood-Methode gewonnenen Schätzwerten für diese unbekannten Eintrittswahrscheinlichkeiten. Dabei bezeichnet $n$ die Anzahl der Beobachtungen (Untersuchungseinheiten). Die Grundidee des Tests ist, aus den beobachteten Werten $y_{1},\dots ,y_{n}$ und den geschätzten Wahrscheinlichkeiten eine Testgröße zu bilden, mit deren Hilfe auf die Gültigkeit der Modellannahmen geschlossen werden kann.

Der Hosmer-Lemeshow-Test wird zur Überprüfung der Kalibrierung eines Modells eingesetzt^[3].

Hosmer-Lemeshow-Test für die logistische Regression

Testidee

Mit

p_{i}:={\hat {P}}(Y_{i}=1),\quad i=1,\dots ,n

seien die mit Hilfe der Maximum-Likelihood-Methode aus einem logistischen Regressionsmodell gewonnenen Schätzwerte für die unbekannten Eintrittswahrscheinlichkeiten $P(Y_{i}=1)$ bezeichnet.

Die Grundidee des Hosmer-Lemeshow-Tests ist, dass sich für eine Teilmenge $M\subset \{1,\dots ,n\}$ mit $m<n$ Elementen, die ähnliche geschätzte Eintrittswahrscheinlichkeiten haben, die beobachtete relative Häufigkeit $p_{o,M}:={\frac {1}{m}}\sum _{i\in M}y_{i}$ der eingetretenen Ereignisse und die durchschnittliche durch die logistische Regression geschätzte Eintrittswahrscheinlichkeit ${\bar {p}}_{M}={\frac {1}{m}}\sum _{i\in M}p_{i}$ nicht zu stark unterscheiden und dass sich diese Abweichungen durch eine Wahrscheinlichkeitsverteilung beschreiben lassen, falls das Modell richtig ist.

Testgröße

Für die Testdurchführung werden die Untersuchungseinheiten in $g<n$ disjunkte Gruppen aufgeteilt, wobei die Anzahl der Gruppen abhängig von den Beobachtungswerten fixiert werden. Eine typische Gruppenzahl ist $g=10$ . Die Zuordnung zu den Gruppen erfolgt anhand der geschätzten Eintrittswahrscheinlichkeiten $p_{1},\dots ,p_{n}$ . Dabei gibt es zwei Methoden für die Gruppenbildung. Bei der ersten Methode erfolgt die Zuordnung anhand von vorgegebenen festen Intervalle, z. B. $(0,0.1]$ , $(0.1,0.2],\dots ,(0.8,0.9]$ , $(0.9,1)$ . Bei der zweiten Methode werden die Intervallgrenzen durch die Dezile der geschätzten Eintrittswahrscheinlichkeiten festgelegt, so dass etwa 10 gleichgroße Gruppen entstehen. Die so gebildeten Gruppen sind durch $G$ disjunkte Teilmengen $M_{j}\subset \{1,\dots ,n\}$ mit $\bigcup _{j=1}^{g}M_{j}=\{1,\dots ,n\}$ charakterisiert, die jeweils die Indizes derjenigen Untersuchungseinheiten enthalten, die zur Gruppe $j$ gehören. Diese beiden Varianten sind der Grund für die Abschnittsüberschrift 5.2.2 The-Hosmer-Lemeshow-Tests.^[2]

Die Testgröße ist

h:=\sum _{j=1}^{g}{\frac {(o_{j}-n_{j}{\bar {p}}_{j})^{2}}{n_{j}{\bar {p}}_{j}(1-{\bar {p}}_{j})}}\;.

Dabei bezeichnen

n_{j}=\#M_{j}

die Anzahl der Beobachtungseinheiten in der Gruppe $j$ ,

o_{j}=\sum _{i\in M_{j}}y_{i}=p_{o,M_{j}}n_{j}

die Anzahl der beobachteten (englisch observed) Ereignisse in der Gruppe $j$ und

{\bar {p}}_{j}:={\frac {1}{n_{j}}}\sum _{i\in M_{j}}p_{i}

die mittlere geschätzte Eintrittswahrscheinlichkeit in der Gruppe $j$ .

Das Produkt $e_{j}:=n_{j}{\bar {p}}_{j}$ kann als die geschätzte erwartete (englisch expected) Anzahl der Ereignisse in der Gruppe $j$ interpretiert werden. Damit ergibt sich für die Hosmer-Lemeshow-Prüfgröße die äquivalente Darstellung

h=\sum _{j=1}^{g}{\frac {(o_{j}-e_{j})^{2}}{n_{j}{\bar {p}}_{j}(1-{\bar {p}}_{j})}}

die an eine Chi-Quadrat-Statistik erinnert. Im Unterschied zu dieser hängen alle Größen von den Beobachtungen ab, da die $e_{j}$ nicht, wie bei der Chi-Quadrat-Statistik die aufgrund eines Modells erwarteten Häufigkeiten, sondern geschätzte erwartete Häufigkeiten sind, die über die geschätzten Eintrittswahrscheinlichkeiten $p_{j}$ von allen beobachteten Werten der erklärten und der erklärenden Variablen abhängen.

Eine weitere in der Literatur anzutreffende äquivalente Darstellung^[4] der Testgröße $h$ mit $2g$ anstelle von $g$ Summenaden ergibt sich aus einer Unterscheidung zwischen Erfolgen ( $y_{i}=1$ ) und Misserfolgen ( $y_{i}=0$ ). Die Hosmer-Lemeshow-Prüfgröße wird dann als

h=\sum _{j=1}^{g}\left({\frac {(o_{j}-e_{j})^{2}}{e_{j}}}+{\frac {(o_{j0}-e_{j0})^{2}}{e_{j0}}}\right)

geschrieben, wobei – ergänzend zu obiger Notation –

o_{j0}:=n_{j}-o_{j}

die Anzahl der beobachteten Misserfolge in Gruppe $j$ ist und

e_{j0}:=n_{j}(1-{\bar {\pi }}_{j})=n_{j}-e_{j}

die geschätzte erwartete Anzahl der Misserfolge in der Gruppe $j$ ist.

Die beiden Varianten der Testgröße, die sich aus der Gruppenbildung mit festen Grenzen und mit beobachtungsabhängigen Grenzen ergeben, werden in der Literatur häufig mit ${\hat {C}}$ und ${\hat {H}}$ bezeichnet. Dabei wird häufig weder in der Notation, noch in der Sprechweise zwischen der Testgröße als aus den beobachteten Werten berechneter Zahl und der Teststatistik, die als Stichprobenvariable eine Zufallsvariable mit einer Wahrscheinlichkeitsverteilung ist.

Testdurchführung

Hosmer und Lemeshow vertreten die Position, dass die Testgröße $h$ unter sehr allgemeinen Bedingungen der realisierte Wert einer Zufallsvariablen $H$ ist, die bei Richtigkeit des logistischen Regressionsmodells für hinreichend großen Stichprobenumfang näherungsweise einer Chi-Quadrat-Verteilung mit $g-2$ Freiheitsgraden folgt.

Die berechnete Testgröße $h$ wird daher mit den Quantilen einer Chi-Quadrat-Verteilung mit $g-2$ Freiheitsgraden verglichen, wobei kleine Werte für eine gute Anpassungsgüte sprechen.

Theoretische Grundlage

Anders als sonst bei statistischen Testverfahren üblich, liegt kein bewiesener Satz vor, aus dem hervorgeht, unter welchen Bedingungen eine Teststatistik, deren Realisation die Hosmer-Lemeshow-Testgröße $h$ ist, approximativ oder asymptotisch einer Chi-Quadrat-Verteilung mit $g-2$ Freiheitsgraden folgt. Die Basis ist vielmehr eine Vermutung, die durch Simulationsuntersuchungen gestützt wird. „Using an extensive set of simulations, Hosmer and Lemeshow (1980) demonstrated that, when $J=n$ and the fitted model is the correct model, the distribution of ${\hat {C}}$ is well approximated by the chi-square distribution with $g-2$ degrees of freedom $\chi ^{2}(g-2)$ . While not specically examined, it is likely that $\chi ^{2}(g-2)$ also approximated the distribution when $J\approx n$ .“^[5] Hierbei bezeichnet $J$ die Anzahl der beobachteten Wertekonstellationen der erklärenden Variablen (Kovariablen) (covariate pattern^[6]) und $n$ die Anzahl der beobachteten Werte. „This is the case most frequently encountered in practice, when there is at least one continuous covariate in the model.“^[7] Jedenfalls setzen damit die Autoren des Tests ein Warnsignal für Anwendungen, bei denen $J$ deutlich kleiner als $n$ ist.

Hosmer-Lemeshow-Test für die multinomiale logistische Regression

Eine Verallgemeinerung der logistischen Regression, bei der die erklärte Variable die beiden Wert 0 und 1 annehmen kann, ist die multinomiale logistische Regression, bei der die erklärte Variable Werte in der Menge $\{0,1,\dots ,c-1\}$ annimmt und $c\geq 3$ die Anzahl der Kategorien ist.^[8] Für diesen Fall existiert eine Verallgemeinerung des Hosmer-Lemeshow-Tests.^[9]^[10]

In diesem Fall gibt es $g$ Gruppen und $c$ Kategorien, wobei die Kategorie $0$ als Referenzkategorie dient. Die zu berechnende Testgröße hat dann $c\cdot g$ Summanden und besitzt die Form

h=\sum _{j=1}^{g}\sum _{k=0}^{c-1}{\frac {(o_{jk}-e_{jk})^{2}}{e_{jk}}}\;,

wobei die $o_{jk}$ die beobachteten Ereignisse und $e_{jk}$ die erwarteten geschätzten Ereignisse in Gruppe $j$ und Kategorie $k$ sind.

Literatur

Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression (= Wiley Series in Probability and Statistics). 3. Auflage. Wiley, Hoboken 2013, ISBN 978-0-470-58247-3, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 157–169, doi:10.1002/9781118548387.
David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.

Einzelnachweise

↑ David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.
↑ ^a ^b David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests.
↑ Yingxiang Huang, Wentao Li, Fima Macheret, Rodney A Gabriel, Lucila Ohno-Machado: A tutorial on calibration measurements and calibration models for clinical prediction models. In: Journal of the American Medical Informatics Association. Band 27, Nr. 4, 2020, S. 621–633, doi:10.1093/jamia/ocz228.
↑ Prabasaj Paul, Michael L. Pennell, Stanley Lemeshow: Standardizing the power of the Hosmer–Lemeshow goodness of fit test in large data sets. In: Statistics in Medicine. Band 32, 2013, S. 67–80, Formel (1), S. 68, doi:10.1002/sim.5525.
↑ David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 158.
↑ David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 154.
↑ David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 155.
↑ David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 8.1 The multinomial logistic regression, S. 269–289.
↑ Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
↑ Morten M. Fagerland, David M. Hosmer: A generalized Hosmer–Lemeshow goodness-of-fit test for multinomial logistic regression models. In: The Stata Journal. Band 12, Nr. 3, S. 447–453.

[1] David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.

[HLT-522-2] David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests.

[3] Yingxiang Huang, Wentao Li, Fima Macheret, Rodney A Gabriel, Lucila Ohno-Machado: A tutorial on calibration measurements and calibration models for clinical prediction models. In: Journal of the American Medical Informatics Association. Band 27, Nr. 4, 2020, S. 621–633, doi:10.1093/jamia/ocz228.

[4] Prabasaj Paul, Michael L. Pennell, Stanley Lemeshow: Standardizing the power of the Hosmer–Lemeshow goodness of fit test in large data sets. In: Statistics in Medicine. Band 32, 2013, S. 67–80, Formel (1), S. 68, doi:10.1002/sim.5525.

[5] David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 158.

[6] David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 154.

[7] David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 155.

[8] David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 8.1 The multinomial logistic regression, S. 269–289.

[9] Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.

[10] Morten M. Fagerland, David M. Hosmer: A generalized Hosmer–Lemeshow goodness-of-fit test for multinomial logistic regression models. In: The Stata Journal. Band 12, Nr. 3, S. 447–453.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]