Verallgemeinerte lineare Modelle

Verallgemeinerte lineare Modelle^[1] (VLM), auch generalisierte lineare Modelle^[2] (GLM oder GLiM) sind in der Statistik eine von John Nelder und Robert Wedderburn (1972) eingeführte wichtige Klasse von nichtlinearen Modellen, die eine Verallgemeinerung des klassischen linearen Regressionsmodells in der Regressionsanalyse darstellt.^[3] Von spezieller Bedeutung ist die Verwendung einer nichtlinearen Kopplungsfunktion. Während man in klassischen linearen Modellen annimmt, dass die Störgröße (die unbeobachtbare Zufallskomponente) normalverteilt ist, kann sie in GLMs eine Verteilung aus der Klasse der Exponentialfamilie besitzen. Diese Verteilungsklasse beinhaltet neben der Normalverteilung auch die Binomial-, Poisson-, Gamma- und inverse Gaußverteilung. Damit bietet die Verwendung der Exponentialfamilie in verallgemeinerten linearen Modellen ein einheitliches Rahmenwerk für diese Verteilungen. Die große Klasse von vektorverallgemeinerten linearen Modellen (englisch vector generalized linear models, kurz VGLMs) beinhaltet die Klasse der verallgemeinerten linearen Modelle als Spezialfall. Ebenso in dieser großen Modellklasse enthalten sind loglineare Modelle für kategoriale Daten und das Modell der Poisson-Regression für Zähldaten.^[4] Um die Einschränkungen der verallgemeinerten linearen Modelle und verallgemeinerten additiven Modelle zu überwinden, wurden sogenannte Verallgemeinerte additive Modelle für Lage-, Skalen- und Formparameter entwickelt.

Begriffsklärung

Verallgemeinerte lineare Modelle sind nicht mit dem allgemeinen linearen Modell zu verwechseln, dessen natürliche englische Abkürzung ebenfalls GLM ist, aber im Gegensatz zu verallgemeinerten linearen Modellen von der Voraussetzung einer normalverteilten Antwortvariablen ausgeht. In vielen statistischen Programmpaketen werden – da die Abkürzung GLM schon für das allgemeine linearen Modell belegt ist – zur besseren Unterscheidung andere Abkürzungen wie VLM bzw. GLZ für englisch GeneraLiZed linear models (in STATISTICA) oder GzLM für englisch GeneraLiZed Linear Models (in SPSS) verwendet. Manche Autoren verwenden zur besseren Unterscheidung statt der Abkürzung GLM die Abkürzung GLiM.

Ebenso sind verallgemeinerte lineare Modelle nicht mit dem verallgemeinerten linearen Regressionsmodell der verallgemeinerten Kleinste-Quadrate-Schätzung (VKQ-Schätzung) zu verwechseln, bei der jedoch eine verallgemeinerte Struktur bzgl. der Störgrößen vorliegt.

Modellkomponenten

Die Modellklasse der verallgemeinerten linearen Modelle besteht aus drei Komponenten:

Zufallskomponente: Wie bei den klassischen linearen Modellen nimmt man unabhängige Zufallsvariablen $Y_{1},Y_{2},\ldots ,Y_{n}$ mit Erwartungswert $\operatorname {E} (Y_{i})=\mu _{i}$ an, die eine Dichtefunktion aus der Exponentialfamilie (z. B. eine Binomial-, Poisson-, oder Gamma-Verteilung) besitzen.

Systematische Komponente: Gegeben ist der Kovariablenvektor $\mathbf {x} _{i}^{\top }=(1,x_{i1},\ldots ,x_{ik})$ mit $k+1$ Komponenten (siehe Das klassische Modell der linearen Mehrfachregression), der die Verteilung der $Y_{i}$ nur durch eine lineare Funktion beeinflusst. Diese lineare Funktion heißt linearer Prädiktor und ist in der multiplen linearen Regression in folgender Form gegeben:

\eta _{i}=\beta _{0}+x_{i1}\beta _{1}+x_{i2}\beta _{2}+\dotsc +x_{ik}\beta _{k}=\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}

. Hier erkennt man, dass der lineare Prädiktor den Vektor der Regressionskoeffizienten

{\boldsymbol {\beta }}=\left(\beta _{0}\,\beta _{1},\dots ,\beta _{k}\right)^{\top }

in das Modell miteinführt.

Kopplungsfunktion: Für ein verallgemeinertes lineares Modell ist eine (oft nichtlineare^[5]) Kopplungsfunktion $g(\cdot )$ vorhanden, die die durch den linearen Prädiktor $\eta _{i}$ beschriebene systematische Komponente und die durch den Erwartungswert $\mu _{i}=\operatorname {E} (Y_{i})$ der Antwortvariablen beschriebene stochastische Komponente der Verteilung von $Y_{i}$ koppelt: $g(\mu _{i})=\eta _{i}$ . Die Umkehrfunktion der Kopplungsfunktion, die sogenannte Antwortfunktion $h(\cdot )$ überführt die Linearkombination der erklärenden Variablen in den (bedingten) Erwartungswert $\mu _{i}=\operatorname {E} (Y_{i})$ : $\mu _{i}=h(\eta _{i})$ .^[6] Beispiele für Kopplungsfunktionen sind die Logit-Funktion und die Probit-Funktion.

Verteilungen aus der Familie der verallgemeinerten linearen Modelle

In die Modellklasse der verallgemeinerten lineare Modelle lassen sich einbetten die Normalverteilung, Binomial-Verteilung, Poisson-Verteilung, Gammaverteilung und die Inverse Normalverteilung, Bernoulli-Verteilung, Skalierte Poisson-Verteilung, Skalierte Binomial-Verteilung, Skalierte negative Binomial-Verteilung.^[7]

Literatur

Peter McCullagh, John Nelder: Generalized Linear Models, Chapman and Hall/CRC Press, 2. Auflage 1989
Charles E. McCulloch, Shayle R. Searle, John M. Neuhaus: Generalized, Linear, and Mixed Models (= Wiley Series in Probability and Statistics). 2. Auflage. Wiley, Hoboken 2008, 5. Generalized Linear Models (GLMs), S. 136–156.
Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, 4. Generalisierte lineare Modelle, S. 189–234, doi:10.1007/978-3-642-01837-4.

Einzelnachweise

↑ International Statistical Institute: Generalized linear model. ISI Glossary. In: www.isi-web.org. Abgerufen am 6. Mai 2024 (vielsprachiges Verzeichnis statistischer Fachbegriffe).
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, 4. Generalisierte lineare Modelle, S. 189, doi:10.1007/978-3-642-01837-4.
↑ John Nelder, Robert Wedderburn: Generalized Linear Models. In: Journal of the Royal Statistical Society, Series A (General). Band 135, 1972, S. 370–384, doi:10.2307/2344614.
↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 513.
↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 514.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 301.
↑ Torsten Becker et al.: Stochastische Risikomodellierung und statistische Methoden. Springer Spektrum, 2016. S. 308.

[:0-1] International Statistical Institute: Generalized linear model. ISI Glossary. In: www.isi-web.org. Abgerufen am 6. Mai 2024 (vielsprachiges Verzeichnis statistischer Fachbegriffe).

[2] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen. 2. Auflage. Springer, Heidelberg / Dordrecht / London / New York 2009, ISBN 978-3-642-01836-7, 4. Generalisierte lineare Modelle, S. 189, doi:10.1007/978-3-642-01837-4.

[3] John Nelder, Robert Wedderburn: Generalized Linear Models. In: Journal of the Royal Statistical Society, Series A (General). Band 135, 1972, S. 370–384, doi:10.2307/2344614.

[4] Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 513.

[5] Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 514.

[6] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 301.

[7] Torsten Becker et al.: Stochastische Risikomodellierung und statistische Methoden. Springer Spektrum, 2016. S. 308.

[1]

[2]

[3]

[4]

[5]

[6]

[7]