In der Statistik ist die erwartungstreue Schätzung der Varianz der Störgrößen, auch erwartungstreue Schätzung der Fehlervarianz genannt, ein Punktschätzer, der die Güteeigenschaft aufweist, dass er unbekannte Varianz der Störgrößen erwartungstreu schätzt, falls die Gauß-Markow-Annahmen zutreffen.
Die Fehlervarianz, auch Restvarianz, Versuchsfehler, Störgrößenvarianz[1], Varianz der Störgrößen, nicht erklärte Varianz, unerklärte Varianz, bezeichnet mit , ist die Varianz der Regressionsfunktion in der Grundgesamtheit und damit die Varianz der Fehlerterme bzw. Störgrößen. Die Fehlervarianz ist ein unbekannter Parameter, der anhand der Stichprobeninformation geschätzt werden muss. Sie bemisst diejenige Variation, die auf die Messfehler bzw. Störgrößen zurückzuführen sind. Ein erster naheliegender Ansatz wäre, die Varianz der Störgrößen wie gewöhnlich mit der Maximum-Likelihood-Schätzung zu schätzen (siehe klassischen linearen Modells der Normalregression). Allerdings ist dieser Schätzer problematisch, wie im Folgenden erläutert wird.
Erwartungstreuer Schätzer für die Varianz der Störgrößen
Obwohl für die homoskedastische Varianz in der Grundgesamtheit manchmal angenommen wird, dass sie bekannt ist, muss man davon ausgehen, dass sie in den meisten Anwendungsfällen unbekannt ist (beispielsweise bei der Schätzung von Nachfrageparametern in ökonomischen Modellen, oder Produktionsfunktionen). Da die Störgrößenvarianz einen unbekannten Wert besitzt, können die numerischen Werte der Varianzen des Steigungsparameters und des Absolutglieds nicht geschätzt werden, da die Formeln von dieser abhängen. Jedoch kann aus den vorliegenden Daten eine Schätzung dieser Größen vorgenommen werden.[2] Ein naheliegender Schätzer der Störgrößen ist das Residuum, wobei die Stichproben-Regressionsfunktion darstellt. Die in den Residuen steckende Information könnte also für einen Schätzer der Störgrößenvarianz genutzt werden. Aufgrund der Tatsache, dass gilt, ist aus frequentistischer Sicht der „Mittelwert“ von . Die Größe ist aber unbeobachtbar, da die Störgrößen unbeobachtbar sind. Wenn man statt nun das beobachtbare Pendant benutzt, führt dies zum folgenden Schätzer für die Störgrößenvarianz
wobei vorausgesetzt wird, dass . Diese erwartungstreue Schätzung für ist das mittleres Residuenquadrat und wird gelegentlich als Residualvarianz bezeichnet. Die Quadratwurzel dieser erwartungstreuen Schätzung bzw. der Residualvarianz wird als Standardfehler der Regression bezeichnet.[6] Die Residualvarianz kann als mittlerer Modellschätzfehler interpretiert werden und bildet die Grundlage für alle weiteren Berechnungen (Konfidenzintervalle, Standardfehler der Regressionsparameter etc.). Sie unterscheidet sich zu obigen Ausdruck in der Hinsicht, dass die Residuenquadratsumme um die Anzahl der Freiheitsgrade adjustiert wird. Intuitiv lässt sich diese Adjustierung damit erklären, dass man durch die Schätzung der beiden unbekannten Regressionsparameter und zwei Freiheitsgrade verliert.
Wie bereits oben erwähnt ist eine erwartungstreue Schätzung für in der einfachen linearen Regression gegeben durch
Um die Erwartungstreue zu zeigen, benutzt man die Eigenschaft, dass sich die Residuen als Funktion der Störgrößen darstellen lassen als .[7][8] Des Weiteren wird die Eigenschaft benutzt, dass die Varianz des KQ-Schätzers gegeben ist durch . Außerdem ist zu beachten, dass der Erwartungswert des KQ-Schätzers gegeben ist durch und gleiches gilt für .[9] Die Erwartungstreue für lässt sich wie folgt beweisen:
.
Mit dem erwartungstreuen Schätzer lassen sich ebenfalls die Varianzen der KQ-Schätzer und schätzen. Beispielsweise lässt sich schätzten, indem man durch ersetzt. Die geschätzte Varianz des Steigungsparameters ist dann gegeben durch
In der multiplen linearen Regression ist die erwartungstreue Schätzung der Varianz der Störgrößen bzw. die Residualvarianz gegeben durch
,
wobei den Kleinste-Quadrate-Schätzer und die -te Zeile der Versuchsplanmatrix darstellt. Alternativ lässt sich die erwartungstreue Schätzung der Varianz der Störgrößen im multiplen Fall darstellen als
.
Diese Darstellung ergibt sich aus der Tatsache, dass man die Residuenquadratsumme schreiben kann als . Eine weitere alternative Darstellung der Residualvarianz ergibt sich aus der Tatsache, dass sich die Residuenquadratsumme mittels der residuenerzeugenden Matrix auch darstellen lässt als . Damit ergibt sich für die Residualvarianz
Diese Schätzung kann wiederum benutzt werden, um die Kovarianzmatrix des KQ-Schätzvektors zu berechnen. Wenn nun durch ersetzt wird, ergibt sich für die geschätzte Kovarianzmatrix des KQ-Schätzvektors
Bei der Regression mit stochastischen Regressoren mit der stochastischen Regressormatrix ist die Erwartungstreue Schätzung der Varianz der Störgrößen ebenfalls gegeben durch
.
Die Erwartungstreue kann mittels des Gesetzes des iterierten Erwartungswertes gezeigt werden.
↑Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6., durchges. u. aktualisierte Auflage. 2013, S. 191.
↑George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 170.
↑Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 109.
↑Karl Mosler und Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. Springer-Verlag, 2011, S. 308.
↑Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 5. Auflage. Nelson Education 2015
↑Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 55.
↑Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 55.