Paneldatenanalyse

Die Paneldatenanalyse ist die statistische Analyse von Paneldaten im Rahmen der Panelforschung. Die Paneldaten verbinden die zwei Dimensionen eines Querschnitts und einer Zeitreihe. Der wesentliche Kernpunkt der Analyse liegt in der Kontrolle unbeobachteter Heterogenität der Individuen.^[1]

Abhängig vom gewählten Modell wird zwischen Kohorten-, Perioden- und Alterseffekten unterscheiden. Durch die Menge an Beobachtungen steigt die Anzahl der Freiheitsgrade und sinkt die Kollinearität, sodass die Schätzer effizienter werden. Im Vergleich zu mehreren, unabhängigen Querschnittsregressionen führen Paneldaten bei der Schätzung exogener Variablen zu besseren Ergebnissen. Durch die Verwendung einer individuenspezifischen Konstante kann der Einfluss konstanter, nicht modellierter Variablen eingefangen werden; dadurch werden die Schätzer robuster gegenüber unvollständiger Modellspezifikation.^[2]

Der Goldstandard der empirischen Forschung ist die randomisierte kontrollierte Studie, die eine Analyse kausaler Zusammenhänge zwischen den beobachteten Variablen erlaubt. Obwohl es sich bei einem Panel weiterhin um Beobachtungsstudien handelt (es findet keine Intervention statt), besteht ein wesentliches Ziel darin, der Kausalanalyse so nah wie möglich zu kommen.^[3]

Statische Lineare Modelle

Statische Modelle berücksichtigen die zeitliche Entwicklung der abhängigen Variable nicht. Die Verwendung statischer Modelle ist sinnvoll, wenn die Reaktion der Individuen nur von den exogenen Variablen, nicht jedoch von älteren Werten der betrachteten Größe abhängt. Zu ihnen zählen das gepoolte Modell, und Paneldatenmodelle mit zufälligen oder festen Effekten.^[4]

Gepooltes Modell

Im gepoolten Modell wird die Heterogenität der Beobachtungen sowohl in der Zeit als auch in der Querschnittsdimension vernachlässigt, wie im gewöhnlichen linearen Regressionsmodell werden sämtliche Koeffizienten als nichtstochastisch und identisch für alle Beobachtungen erachtet. Die Schätzer sind effizienter als bei T Querschnittsregressionen mit je $N$ Beobachtungen, da mit steigender Zahl der Beobachtungen der Standardfehler der Koeffizienten sinkt, sofern sich diese nicht signifikant unterscheiden; Heterogenität führt jedoch zu verzerrten Schätzern. Außerdem ist fraglich, ob die Beobachtungen unabhängig sind, wenn dieselben Individuen wiederholt befragt werden („serielle Korrelation“).

Modell mit zufälligen Effekten

Im Paneldatenmodell mit zufälligen Effekten, genauer Modell mit zufälligem Achsenabschnitt (englisch random intercept model), wird ein individuenspezifischer Achsenabschnitt $\alpha _{i}$ eingeführt, der für jedes Individuum die Realisierung einer für alle Individuen identisch verteilten Zufallsvariablen ist:

y_{it}=\mathbf {x} '_{it}{\boldsymbol {\beta }}+\alpha _{i}+\epsilon _{it}\quad

, mit

\quad \alpha _{i}+\epsilon _{it}=\nu _{it}\,

.

Hierbei stellt $y_{it}$ den Wert der zu erklärenden Variablen dar, $\mathbf {x} _{it}$ den Vektor der $K$ erklärenden Variablen und ${\boldsymbol {\beta }}$ den Vektor der Regressionskoeffizienten dar. Der Gesamtfehler $\nu _{it}$ setzt sich aus dem individuenspezifischen Achsenabschnitt $\alpha _{i}$ und dem idiosynkratischen (zeitvariablen, systematischen) Fehler $\epsilon _{it}$ zusammen.

Modell mit festen Effekten

Im Paneldatenmodell mit festen Effekten hingegen variiert der Achsenabschnitt $\alpha _{i}$ systematisch, während die $\beta _{k}$ weiterhin für alle Individuen gleich bleiben. Die $\alpha _{i}$ sind somit zu schätzende Parameter und modellieren die Heterogenität der Individuen wie im RE-Modell nur durch eine Niveauverschiebung – also durch unterschiedliche $\alpha _{i}$ . Der Einfluss der erklärenden Variablen soll für alle Individuen gleich sein. Dieses Verfahren erklärt somit, warum eine Beobachtung vom individuellen Mittelwert abweicht, nicht jedoch die Unterschiede in den (Mittel-)Werten verschiedener Individuen. Daher sind zeitkonstante Variablen im Modell mit fixen Effekten nicht identifiziert.

Beispiele:

die unbeobachtbaren Fähigkeiten des Managements beeinflussen die Gewinnsituation von Unternehmen
Ausbildung beeinflusst die Gehaltsituation von Arbeitnehmern

Vergleich der Modelle

Generell sollen Modelle mit zufälligen Effekten bevorzugt werden, wenn die Charakteristika einer Grundgesamtheit aus einigen Individuen hergeleitet werden sollen. Modelle mit festen Effekten bieten sich insbesondere dann an, wenn Vorhersagen (Inferenzen) nur für die betrachtete Stichprobe getroffen werden sollen; sie sollten aber auch im obigen Fall angewendet werden, wenn $\alpha _{i}$ und $\mathbf {x} _{it}$ korreliert sind und Modell mit zufälligen Effekten so zu inkonsistenten und verzerrten Schätzern führt. Ein Argument gegen FE-Modelle ist der Verlust an Freiheitsgraden, da mit jedem Individuum eine neue Variable geschätzt werden muss. Wenn die Varianz der Werte eines Individuums (Within-Varianz) sehr viel geringer ist als die Varianz zwischen den Individuen (Between-Varianz), ist das FE-Modell nachteilig: Man ignoriert einen Teil der Information und unterstellt, dass die Mittelwerte von $y$ nichts über die Beziehung der Variablen aussagen.

y_{it}=\mathbf {x} '_{it}{\boldsymbol {\beta }}+\alpha _{i}+\lambda _{t}+\epsilon _{it}

basiert zwar auf statischen Verfahren, bildet aber durch die für alle Individuen geltende, aber zeitabhängige Variable $\lambda _{t}$ Niveauunterschiede in den verschiedenen Perioden ab. $\lambda _{t}$ kann analog zu $\alpha _{i}$ im Rahmen eines FE- oder RE-Modells geschätzt werden. Da die zeitabhängige Konstante für jede Periode neu festgelegt werden muss, ist dieses Modell zur Vorhersage nicht geeignet.

Eine weitere Möglichkeit, Veränderungen im Zeitablauf zu berücksichtigen, liegt in der Verwendung so genannter verteilter Lag-Modelle (auch Modelle mit verteilten Verzögerungen, englisch distributed lag models), die die Wirkung einer veränderten unabhängigen Variable auf die erklärte Variable über einen unendlich großen Zeithorizont verteilt. Eine solche Konstruktion erklärt somit verzögerte Wirkungen aus psychologischen, technologischen oder institutionellen Gründen. In diesen Modellen muss insbesondere der Multikollinearität besondere Beachtung geschenkt werden. Außerdem treten Probleme durch die Wahl der richtigen Anzahl verzögerter Beobachtungen und ein Verlust an Beobachtungswerten auf: Bei steigender Zahl der Parameter sinkt die Zahl der verfügbaren Beobachtungen.

Der Hausman-Spezifikationstest ist ein Testverfahren, um zu entscheiden, ob eher ein Modell mit festen Effekten (FE-Modell) oder ein Modell mit zufälligen Effekten (RE-Modell) vorliegt.

Dynamische Modelle

Dynamische Modelle enthalten implizit über den Fehlerterm $\epsilon _{it}=\rho \epsilon _{i,t-1}+\zeta _{it}$ (autoregressive Modelle) oder explizit (LDV = „lagged dependent variable“) eine verzögerte endogene Variable (also bspw. $y_{i,t-1}$ , wenn $y_{it}$ erklärt werden soll). Dieser Ansatz implementiert die intuitiv einleuchtende Vorstellung, dass das Niveau einer Vorjahresgröße eine primitive Prognose für die aktuelle Größe darstellt. Das dynamische LDV-Modell lautet:

y_{it}=\gamma y_{i,t-1}+\mathbf {x} '_{it}{\boldsymbol {\beta }}+\alpha _{i}+\epsilon _{it}

, mit

\epsilon _{it}{\stackrel {\mathrm {i.i.d} }{\sim }}(0,\sigma _{\epsilon }^{2})\,

, d. h. alle Fehlerterme sind unabhängig und identisch verteilt (i.i.d. = independently and identically distributed) mit Erwartungswert

0

und Varianz

\sigma _{\epsilon }^{2}

.

Der Koeffizient $\gamma$ kann nicht kausal (wie im statischen Modell) interpretiert werden, sondern beschreibt die Anpassungsgeschwindigkeit des dynamischen Effekts.

Eine Verallgemeinerung des LDV ist das Cross-lagged panel model (kurz: CLPM oder CLP, deutsch etwa kreuzverzögertes Paneldatenmodell). In diesem Modell werden durch Verwendung von Strukturgleichungsmodellen, die Beziehungen mehrerer Variablen zu mehreren Messzeitpunkten unter Verwendung verzögerter Variablen geschätzt. Es wird häufig verwendet, um die Richtung von Wechselbeziehungen zwischen Variablen zu untersuchen. Eine Analyse mit einem Cross-lagged panel model führt unter Verwendung von zufälligen oder Kleinste-Quadrate-Schätzern zu verzerrten Schätzern, so dass komplexere Schätzverfahren notwendig sind, deren Annahmen allerdings nicht überprüft werden können.^[5]^[6]

Schätzverfahren

Schätzverfahren in den statischen Modellen

Bei statischen Modellen werden der gepoolte Kleinste-Quadrate-Schätzer, der LSDV-Schätzer (LSDV für least squares dummy variable, deutsch etwa Kleinste-Quadrate-Schätzer mit Dummyvariablen) im Modell mit festen Effekten und der Durchführbare verallgemeinerte KQ-Schätzung (GVKQ) (kurz GVKQ-Schätzer) im Modell mit zufälligen Effekten verwendet.

Schätzverfahren in den dynamischen Modellen

Bei dynamischen Modellen hängt die verzögerte endogene Variable von $\alpha _{i}$ ab, da die auf Individuenmittelwerte transformierten Fehlerterme und verzögerten Variablen miteinander korreliert sind – dies gilt unabhängig davon, ob die $\alpha _{i}$ als fix oder zufällig angesehen werden. Daher sind KQ-Schätzer bei endlichen Zeithorizonten T verzerrt und nicht konsistent; selbst für $T=30$ sind die Verzerrungen noch sehr deutlich, für $t\rightarrow \infty$ beträgt die asymptotische Verzerrung $O(T^{-1})$ . Dieses Landau-Symbol besagt vereinfachend, dass die Verzerrung höchstens so schnell sinkt wie $1/T$ . Eine Alternative bieten daher bestimmte verallgemeinerte Momentenschätzer (englisch generalized method of moments), ein Oberbegriff für viele lineare und nichtlineare Schätzverfahren einschließlich der Kleinste-Quadrate-Schätzung und den nun zu diskutierenden Instrumentvariablen (IV). Solche Verfahren erfordern keine Annahmen über die Verteilung der Fehlerterme, erlauben Heteroskedastizität und können (numerisch) selbst dann gelöst werden, wenn eine analytische Lösung nicht möglich ist. IV-Schätzer führen bei Korrelation der erklärenden Variablen mit dem Fehlerterm zu konsistenten Schätzern, soweit keine anderen Bedingungen verletzt sind. Diese Korrelation kann wie hier durch endogene Variablen, aber auch durch unberücksichtigte erklärende Variablen, Selbstselektion (Individuen nehmen nur bei ihrer Meinung nach positiven Umständen an der Umfrage teil) oder durch Messfehler verursacht sein. Bei der IV-Methode wird die Korrelation zwischen $y_{i,t-1}$ und $\epsilon _{it}$ zumindest asymptotisch eliminiert, indem man $y_{i,t-1}$ durch Größen ersetzt, die zwar in engem Zusammenhang mit $y_{i,t-1}$ stehen (also relevant sind), aber nicht mit $\epsilon _{it}$ korrelieren oder eine Linearkombination anderer erklärender Variablen darstellen und somit gültig sind. Wenn die Anzahl $R$ der Instrumente der Anzahl $K$ der erklärenden Variablen entspricht, so spricht man vom IV-Modell (hierbei können exogene Variablen ihre eigenen Instrumente sein), gilt $R>K$ , so ist das Modell überidentifiziert und man erhält den effizienteren, in endlichen Stichproben aber möglicherweise stärker verzerrten GIVE, den „generalized instrumental variables estimator“. Der Schätzer im Fall $R=K$ lautet ${{\hat {\boldsymbol {\beta }}}_{IV}}=(\mathbf {Z} '\mathbf {X} )^{-1}\mathbf {Z} '\mathbf {y}$ , wobei $\mathbf {Z}$ die $N\times R$ -Matrix der verfügbaren Instrumente ist. Diese Gleichung lässt sich auch aus dem GIVE für $R>K$ herleiten:

{{\hat {\boldsymbol {\beta }}}_{GIV}}=(\mathbf {X} '\mathbf {Z} \mathbf {W} \mathbf {Z} '\mathbf {X} )^{-1}\mathbf {X} '\mathbf {Z} \mathbf {W} \mathbf {Z} '\mathbf {y} \quad

, falls

\quad \operatorname {Rang} (\mathbf {X} '\mathbf {Z} )=K\,

.

Dieser Schätzer resultiert aus der Minimierung einer quadratischen Funktion der Stichprobenmomente. Sofern die $(R\times R)$ -Gewichtsmatrix $\mathbf {W}$ positiv definit ist, werden die Schätzer konsistent sein, da die zu minimierende quadratische Gleichung nur positive Werte annehmen kann und bei steigendem N gegen Null strebt. Da jedes skalare Vielfache der inversen Kovarianzmatrix der Stichprobenmomente zu effizienten Schätzern führt, ergibt sich unter der Annahme $\varepsilon _{it}{\stackrel {\mathrm {i.i.d.} }{\sim }}(0,\sigma _{\epsilon }^{2})$ die optimale Gewichtsmatrix:

\mathbf {W} ^{\text{opt}}=N\sigma ^{2}\mathbf {\Sigma } _{\mathbf {Z} \mathbf {Z} }

.

Der sich hieraus ergebende GIVE wird auch zweistufiger Kleinste-Quadrate-Schätzer (englisch two stage least squares estimator, kurz: 2SLS estimator) genannt, da er auch aus zwei aufeinander folgenden KQ-Regressionen gebildet werden kann.

Simulationsstudien haben gezeigt, dass die Varianzen der IV-Schätzer bei kleinen bis mittleren Stichproben häufig recht groß sind. Dies gilt insbesondere im Vergleich zu KQ-Schätzern und wird durch eine geringe Korrelation von endogenem Regressor und IV verschärft, da die Schätzer dann schon bei geringer Korrelation der IV mit dem Fehlerterm inkonsistent sind. Die Zahl der notwendigen Beobachtungen hängt vom jeweiligen Modellzusammenhang ab. Ein weiteres Problem stellt die Auswahl der Instrumente dar: Zwar können im einfachsten Fall beispielsweise exogene Variablen aus Vorperioden oder Differenzen aus diesen herangezogen werden, je weiter diese aber zeitlich entfernt sind, desto schwächer sind sie vermutlich. Auch rechentechnisch sind Grenzen gesetzt: So erreicht ein von Ahn/Schmidt vorgeschlagener IV-Schätzer mit zusätzlichen Momentenbedingungen für 15 Perioden und 10 erklärende Variablen 2.250 Spalten. Diese Größenordnungen sind von vielen Programmen selbst heute nicht lösbar. Die bezüglich der Momentenbedingungen getroffenen Annahmen können statistisch nicht getestet werden. Nur, wenn mehr Bedingungen als notwendig vorhanden sind ( $R>K$ ), kann eine Aussage getroffen werden, ob Momentenbedingungen überflüssig sind, jedoch nicht welche. Sofern die Instrumente gültig sind, führen mehr Momentenbedingungen zu effizienteren Schätzern. Der Arellano-Bond-Schätzer (AB-Schätzer) erhöht die Zahl dieser Bedingungen durch die Berücksichtigung verzögerter Levels der abhängigen und vorherbestimmten Variablen und Veränderungen der exogenen Variablen auf:

$m=(T-2)\cdot (T-1)/2$ Bedingungen bei einem Modell mit einer verzögerten Variablen und keinen exogenen Variablen: $y_{it}=\gamma y_{i,t-1}+\epsilon _{it}$ ,
$m=(T-2)\cdot [K(T+1)+T]/2$ Bedingungen bei einem Modell mit einer verzögerten Variablen und K strikt exogenen Variablen,
$m=(T-2)\cdot [K(T+1)+(T-1)]/2$ Bedingungen bei einem Modell mit einer verzögerten Variablen und K exogenen, vorherbestimmten Variablen. Diese sind – im Gegensatz zu strikt exogenen Variablen – abhängig von vorherigen Realisierungen des Fehlerterms: $\operatorname {E} [\mathbf {x} _{it}\epsilon _{js}]\neq 0$ für $s<t$ und Null sonst.

Allgemein ergibt sich daraus der folgende Schätzer:

{\hat {\boldsymbol {\beta }}}=[(\mathbf {\Delta } \mathbf {X} )'\mathbf {Z} \mathbf {A} _{N}\mathbf {X} '(\mathbf {\Delta } \mathbf {X} )]^{-1}\mathbf {\Delta } \mathbf {X} '\mathbf {Z} \mathbf {A} _{N}\mathbf {Z} '\mathbf {\Delta } \mathbf {y}

,

mit der $((T-2)\times m)$ -Matrix $\mathbf {Z}$ der Momentenbedingungen, der Gewichtsmatrix $\mathbf {A} _{N}$ sowie den Veränderungen der erklärten bzw. erklärenden Variablen, ( $\mathbf {\Delta } \mathbf {y}$ ) und ( $\mathbf {\Delta } \mathbf {X}$ ). Das Verfahren setzt jedoch unkorrelierte Fehlerterme voraus. Bei abschließenden Tests muss beachtet werden, dass die Standardfehler nach unten hin verzerrt sind, was zu einer ungerechtfertigten Vernachlässigung einer erklärenden Variablen führen kann. Dieses Verfahren ist mit kleineren Anpassungen auch für unbalancierte Paneldaten verwendbar.

Literatur

Badi H. Baltagi: Econometric Analysis of Panel Data. 5. Auflage. John Wiley & Sons, 2013, ISBN 978-1-118-69922-5.
U. Engel, J. Reinecke: Panelanalyse: Grundlagen, Techniken, Beispiele. de Gruyter, Berlin 1994, ISBN 3-11-013570-1.
Edward W. Frees: Longitudinal and Panel Data – analysis and applications in the social sciences. Cambridge University Press, Cambridge u. a. 2004.
M. Giesselmann, M. Windzio: Regressionsmodelle zur Analyse von Paneldaten. Springer VS, Wiesbaden 2012, ISBN 978-3-531-18694-8.
B. O. Muthén: Latent Variable Analysis: Growth mixture modeling an related techniques for longitudinal data. In: David Kaplan (Hrsg.): The Sage handbook of quantitative methodology for the social sciences. Sage, Thousand Oaks 2004, ISBN 0-7619-2359-4, S. 345–368.
Jeffrey M. Wooldridge: Econometric analysis of cross section and panel data. 2. Auflage. MIT Press, Cambridge 2010, ISBN 978-0-262-23258-6.

Einzelnachweise

↑ Y. Croissant, G. Millo: Panel Data Econometrics with R. John Wiley & Sons, 2018, ISBN 978-1-118-94916-0, S. 1.
↑ Cheng Hsiao: Analysis of panel data. (= Econometric Society monographs. No. 54). Cambridge university press, 2014, ISBN 978-1-107-65763-2, S. 4–10.
↑ S. E. Finkel: Causal analysis with panel data. (= Quantitative applications in the social sciences. No. 105). Sage 1995, ISBN 0-8039-3896-9.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Modelle, Methoden und Anwendungen. Springer Verlag, 2009, ISBN 978-3-642-01836-7, S. 253.
↑ Josef Brüderl: Kausalanalyse mit Paneldaten. In: Christof Wolf, Henning Best (Hrsg.): Handbuch der sozialwissenschaftlichen Datenanalyse. 1. Auflage. VS Verlag für Sozialwissenschaften, Wiesbaden 2010, ISBN 978-3-531-16339-0, S. 990–991.
↑ Steffen Kühnel, Anja Mays: Probleme von Cross-Lagged Panelmodellen zur Analyse gegenseitiger Beeinflussung von Einstellung und Verhalten. In: Jochen Mayerl, Thomas Krause, Andreas Wahl, Marius Wuketich (Hrsg.): Einstellungen und Verhalten in der empirischen Sozialforschung. Analytische Konzepte, Anwendungen und Analyseverfahren. 1. Auflage. Springer VS, Wiesbaden 2019, ISBN 978-3-658-16347-1, S. 359–386.

Weblinks

Paneldaten und Paneldatenmodelle – Artikel im Gabler Wirtschaftslexikon

[1] Y. Croissant, G. Millo: Panel Data Econometrics with R. John Wiley & Sons, 2018, ISBN 978-1-118-94916-0, S. 1.

[2] Cheng Hsiao: Analysis of panel data. (= Econometric Society monographs. No. 54). Cambridge university press, 2014, ISBN 978-1-107-65763-2, S. 4–10.

[3] S. E. Finkel: Causal analysis with panel data. (= Quantitative applications in the social sciences. No. 105). Sage 1995, ISBN 0-8039-3896-9.

[4] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Modelle, Methoden und Anwendungen. Springer Verlag, 2009, ISBN 978-3-642-01836-7, S. 253.

[5] Josef Brüderl: Kausalanalyse mit Paneldaten. In: Christof Wolf, Henning Best (Hrsg.): Handbuch der sozialwissenschaftlichen Datenanalyse. 1. Auflage. VS Verlag für Sozialwissenschaften, Wiesbaden 2010, ISBN 978-3-531-16339-0, S. 990–991.

[6] Steffen Kühnel, Anja Mays: Probleme von Cross-Lagged Panelmodellen zur Analyse gegenseitiger Beeinflussung von Einstellung und Verhalten. In: Jochen Mayerl, Thomas Krause, Andreas Wahl, Marius Wuketich (Hrsg.): Einstellungen und Verhalten in der empirischen Sozialforschung. Analytische Konzepte, Anwendungen und Analyseverfahren. 1. Auflage. Springer VS, Wiesbaden 2019, ISBN 978-3-658-16347-1, S. 359–386.

[1]

[2]

[3]

[4]

[5]

[6]