Als Ausgangslage betrachten wir ein typisches multiples lineares Regressionsmodell mit gegebenen Daten
{
y
t
,
x
t
k
}
t
=
1
,
…
,
T
,
k
=
1
,
…
,
K
{\displaystyle \{y_{t},x_{tk}\}_{t=1,\dots ,T,k=1,\dots ,K}}
für
T
{\displaystyle T}
statistische Einheiten . Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden
y
t
=
x
t
1
β
1
+
x
t
2
β
2
+
…
+
x
t
K
β
K
+
ε
t
=
x
t
⊤
β
+
ε
t
,
t
=
1
,
2
,
…
,
T
{\displaystyle y_{t}=x_{t1}\beta _{1}+x_{t2}\beta _{2}+\ldots +x_{tK}\beta _{K}+\varepsilon _{t}=\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}+\varepsilon _{t},\quad t=1,2,\dotsc ,T}
.
In Matrixnotation auch
(
y
1
y
2
⋮
y
T
)
(
T
×
1
)
=
(
x
11
x
12
⋯
x
1
k
⋯
x
1
K
x
21
x
22
⋯
x
2
k
⋯
x
2
K
⋮
⋮
⋱
⋮
⋱
⋮
x
T
1
x
T
2
⋯
x
T
k
⋯
x
T
K
)
(
T
×
K
)
⋅
(
β
1
β
2
⋮
β
K
)
(
K
×
1
)
+
(
ε
1
ε
2
⋮
ε
T
)
(
T
×
1
)
{\displaystyle {\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{T}\end{pmatrix}}_{(T\times 1)}\;=\;{\begin{pmatrix}x_{11}&x_{12}&\cdots &x_{1k}&\cdots &x_{1K}\\x_{21}&x_{22}&\cdots &x_{2k}&\cdots &x_{2K}\\\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\x_{T1}&x_{T2}&\cdots &x_{Tk}&\cdots &x_{TK}\end{pmatrix}}_{(T\times K)}\;\cdot \;{\begin{pmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{K}\end{pmatrix}}_{(K\times 1)}\;+\;{\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{T}\end{pmatrix}}_{(T\times 1)}}
oder in kompakter Schreibweise
y
=
X
β
+
ε
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
.
Hier stellt
β
{\displaystyle {\boldsymbol {\beta }}}
einen Vektor von unbekannten Parametern dar, die mithilfe der Daten geschätzt werden müssen.
Das multiple lineare Regressionsmodell
y
=
X
β
+
ε
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
wird „klassisch“ genannt, wenn die folgenden Annahmen gelten
A1: Die Störgrößen weisen einen Erwartungswert von Null auf:
E
(
ε
)
=
0
{\displaystyle \operatorname {E} ({\boldsymbol {\varepsilon }})=\mathbf {0} \ }
, was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist.
A2: Die Störgrößen sind unkorreliert:
Cov
(
ε
i
,
ε
j
)
=
E
[
(
ε
i
−
E
(
ε
i
)
)
(
(
ε
j
−
E
(
ε
j
)
)
]
=
E
(
ε
i
ε
j
)
=
0
∀
i
≠
j
,
i
=
1
,
…
,
n
,
j
=
1
,
…
,
n
{\displaystyle \operatorname {Cov} (\varepsilon _{i},\varepsilon _{j})=\operatorname {E} [(\varepsilon _{i}-\operatorname {E} (\varepsilon _{i}))((\varepsilon _{j}-\operatorname {E} (\varepsilon _{j}))]=\operatorname {E} (\varepsilon _{i}\varepsilon _{j})=0\quad \forall i\neq j,\;i=1,\ldots ,n,\;j=1,\ldots ,n}
und weisen eine homogene Varianz auf. Beides zusammen ergibt:
Cov
(
ε
)
=
σ
2
I
T
{\displaystyle {\mbox{Cov}}({\boldsymbol {\varepsilon }})=\sigma ^{2}\mathbf {I} _{T}}
A3: Die Datenmatrix ist nichtstochastisch und hat vollen Spaltenrang
Rang
(
X
)
=
K
{\displaystyle {\mbox{Rang}}(\mathbf {X} )=K}
Die Annahmen A1–A3 lassen sich zusammenfassen als
ε
∼
(
0
,
σ
2
I
n
)
{\displaystyle {\boldsymbol {\varepsilon }}\sim (\mathbf {0} ,\sigma ^{2}\mathbf {I} _{n})}
. Statt die Varianzen und Kovarianzen der Störgrößen einzeln zu betrachten, werden diese in folgender Varianz-Kovarianzmatrix zusammengefasst:
Cov
(
ε
)
=
E
(
(
ε
−
E
(
ε
)
⏟
=
0
aus A1
)
(
ε
−
E
(
ε
)
⏟
=
0
aus A1
)
⊤
)
=
E
(
ε
ε
⊤
)
=
(
Var
(
ε
1
)
Cov
(
ε
1
,
ε
2
)
⋯
Cov
(
ε
1
,
ε
T
)
Cov
(
ε
2
,
ε
1
)
Var
(
ε
2
)
⋯
Cov
(
ε
2
,
ε
T
)
⋮
⋮
⋱
⋮
Cov
(
ε
T
,
ε
1
)
Cov
(
ε
T
,
ε
2
)
⋯
Var
(
ε
T
)
)
=
aus A2
σ
2
(
1
0
⋯
0
0
1
⋱
⋮
⋮
⋱
⋱
0
0
⋯
0
1
)
(
T
×
T
)
=
σ
2
I
T
{\displaystyle {\begin{aligned}{\mbox{Cov}}({\boldsymbol {\varepsilon }})&=\operatorname {E} \left(({\boldsymbol {\varepsilon }}-\underbrace {\operatorname {E} ({\boldsymbol {\varepsilon }})} _{=\mathbf {0} \;{\text{aus A1}}})({\boldsymbol {\varepsilon }}-\underbrace {\operatorname {E} ({\boldsymbol {\varepsilon }})} _{=\mathbf {0} \;{\text{aus A1}}})^{\top }\right)=\operatorname {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\operatorname {Var} (\varepsilon _{1})&\operatorname {Cov} (\varepsilon _{1},\varepsilon _{2})&\cdots &\operatorname {Cov} (\varepsilon _{1},\varepsilon _{T})\\\\\operatorname {Cov} (\varepsilon _{2},\varepsilon _{1})&\operatorname {Var} (\varepsilon _{2})&\cdots &\operatorname {Cov} (\varepsilon _{2},\varepsilon _{T})\\\\\vdots &\vdots &\ddots &\vdots \\\\\operatorname {Cov} (\varepsilon _{T},\varepsilon _{1})&\operatorname {Cov} (\varepsilon _{T},\varepsilon _{2})&\cdots &\operatorname {Var} (\varepsilon _{T})\end{pmatrix}}\\&{\stackrel {\text{aus A2}}{=}}\sigma ^{2}{\begin{pmatrix}1&0&\cdots &0\\0&1&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&1\end{pmatrix}}_{(T\times T)}=\sigma ^{2}\mathbf {I} _{T}\end{aligned}}}
Somit gilt für
y
{\displaystyle \mathbf {y} }
E
(
y
)
=
X
β
{\displaystyle \operatorname {E} (\mathbf {y} )=\mathbf {X} {\boldsymbol {\beta }}\quad }
mit
Cov
(
y
)
=
σ
2
I
T
{\displaystyle \quad {\mbox{Cov}}(\mathbf {y} )=\sigma ^{2}\mathbf {I} _{T}}
.
Wenn zusätzlich zum o. g. klassischen linearen Regressionsmodell (kurz: KLRM ) oder auch Standardmodell der linearen Regression genannt, die Annahme der Normalverteiltheit der Störgrößen gefordert wird, dann spricht man vom klassischen linearen Modell der Normalregression . Dies ist dann gegeben durch
y
=
X
β
+
ε
{\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}\;}
mit
ε
∼
N
(
0
,
σ
2
I
T
)
{\displaystyle \;{\boldsymbol {\varepsilon }}\sim {\mathcal {N}}\left(\mathbf {0} ,\sigma ^{2}\mathbf {I} _{T}\right)}
.
Der unbekannte Varianzparameter einer Grundgesamtheit und der Steigungsparameter des normal linearen Modells lassen sich mithilfe der Maximum-Likelihood-Methode schätzen. Dazu wird zunächst die einzelne Wahrscheinlichkeitsdichte des Fehlervektors, der einer Normalverteilung folgt, benötigt. Sie lautet:
f
(
ε
t
∣
σ
2
)
=
1
2
π
σ
2
exp
{
−
ε
t
2
2
σ
2
}
{\displaystyle f(\varepsilon _{t}\mid \sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left\{-{\frac {\varepsilon _{t}^{2}}{2\sigma ^{2}}}\right\}}
, wobei
σ
2
=
σ
ε
2
{\displaystyle \sigma ^{2}=\sigma _{\varepsilon }^{2}}
darstellt.
Da sich die Störgröße auch als
ε
t
=
y
t
−
x
t
⊤
β
{\displaystyle \varepsilon _{t}=y_{t}-\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}}
darstellen lässt, kann man die einzelne Dichte auch schreiben als
f
(
y
t
∣
x
t
⊤
,
β
,
σ
2
)
=
1
2
π
σ
2
exp
{
−
(
y
t
−
x
t
⊤
β
)
2
2
σ
2
}
{\displaystyle f(y_{t}\mid \mathbf {x} _{t}^{\top },{\boldsymbol {\beta }},\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left\{-{\frac {\left(y_{t}-\mathbf {x} _{t}^{\top }{\boldsymbol {\beta }}\right)^{2}}{2\sigma ^{2}}}\right\}}
.
Aufgrund der Unabhängigkeitsannahme lässt sich die gemeinsame Wahrscheinlichkeitsdichte
f
{\displaystyle f}
als Produkt der einzelnen Randdichten
f
1
,
…
,
f
T
{\displaystyle f_{1},\ldots ,f_{T}}
darstellen. Die gemeinsame Dichte
f
(
y
1
,
y
2
,
…
,
y
T
∣
X
,
β
,
σ
2
)
=
f
(
y
1
∣
x
1
⊤
,
β
,
σ
2
)
⋅
f
(
y
2
∣
x
2
⊤
β
,
σ
2
)
⋅
…
⋅
f
(
y
T
∣
x
T
⊤
,
β
,
σ
2
)
{\displaystyle f(y_{1},y_{2},\ldots ,y_{T}\mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})=f(y_{1}\mid \mathbf {x} _{1}^{\top },{\boldsymbol {\beta }},\sigma ^{2})\cdot f(y_{2}\mid \mathbf {x} _{2}^{\top }{\boldsymbol {\beta }},\sigma ^{2})\cdot \ldots \cdot f(y_{T}\mid \mathbf {x} _{T}^{\top },{\boldsymbol {\beta }},\sigma ^{2})}
lautet bei unterstellter stochastischer Unabhängigkeit dann
f
(
y
1
,
y
2
,
…
,
y
T
∣
X
,
β
,
σ
2
)
=
∏
t
=
1
T
f
t
(
y
t
∣
x
t
⊤
,
β
,
σ
2
)
=
1
2
π
σ
2
exp
{
−
(
y
1
−
x
1
⊤
β
)
2
2
σ
2
}
⋅
…
⋅
1
2
π
σ
2
exp
{
−
(
y
T
−
x
T
⊤
β
)
2
2
σ
2
}
=
(
2
π
σ
2
)
−
T
2
exp
{
−
(
y
−
X
β
)
⊤
(
y
−
X
β
)
2
σ
2
}
{\displaystyle {\begin{aligned}f(y_{1},y_{2},\dotsc ,y_{T}\mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&=\prod _{t=1}^{T}f_{t}(y_{t}\mid \mathbf {x} _{t}^{\top },{\boldsymbol {\beta }},\sigma ^{2})\\&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left\{-{\frac {\left(y_{1}-\mathbf {x} _{1}^{\top }{\boldsymbol {\beta }}\right)^{2}}{2\sigma ^{2}}}\right\}\cdot \ldots \cdot {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\operatorname {exp} \left\{-{\frac {\left(y_{T}-\mathbf {x} _{T}^{\top }{\boldsymbol {\beta }}\right)^{2}}{2\sigma ^{2}}}\right\}\\&=(2\pi \sigma ^{2})^{-{\frac {T}{2}}}\operatorname {exp} \left\{-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}\right\}\end{aligned}}}
Die gemeinsame Dichte lässt sich auch schreiben als:
f
(
y
∣
X
,
β
,
σ
2
)
=
(
2
π
σ
2
)
−
T
2
|
I
T
|
−
1
2
exp
{
−
(
y
−
X
β
)
⊤
I
T
(
y
−
X
β
)
2
σ
2
}
{\displaystyle f(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})=(2\pi \sigma ^{2})^{-{\frac {T}{2}}}|\mathbf {I} _{T}|^{-{\frac {1}{2}}}\operatorname {exp} \left\{-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\mathbf {I} _{T}\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}\right\}}
Da wir uns nun nicht für ein bestimmtes Ergebnis bei gegebenen Parametern interessieren, sondern diejenigen Parameter suchen, die am besten zu unseren Daten passen, denen also die größte Plausibilität zugeordnet wird, dass sie den wahren Parametern entsprechen, lässt sich nun die Likelihood-Funktion als gemeinsame Wahrscheinlichkeitsdichte in Abhängigkeit von den Parametern formulieren.
L
(
β
,
σ
2
;
y
,
X
)
=
(
2
π
σ
2
)
−
T
2
exp
{
−
(
y
−
X
β
)
⊤
(
y
−
X
β
)
2
σ
2
}
{\displaystyle L({\boldsymbol {\beta }},\sigma ^{2};\mathbf {y} ,\mathbf {X} )=(2\pi \sigma ^{2})^{-{\frac {T}{2}}}\operatorname {exp} \left\{-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}\right\}}
Durch logarithmieren der Likelihood-Funktion ergibt sich die logarithmische Likelihood-Funktion (auch logarithmische Plausibilitätsfunktion genannt) in Abhängigkeit von den Parametern:
ℓ
(
β
,
σ
2
;
y
,
X
)
=
ln
(
L
(
β
σ
2
;
y
,
X
)
)
=
−
T
2
⋅
ln
(
2
π
)
−
T
2
⋅
ln
(
σ
2
)
−
(
y
−
X
β
)
⊤
(
y
−
X
β
)
2
σ
2
{\displaystyle \ell ({\boldsymbol {\beta }},\sigma ^{2};\mathbf {y} ,\mathbf {X} )=\ln \left(L({\boldsymbol {\beta }}\sigma ^{2};\mathbf {y} ,\mathbf {X} )\right)=-{\frac {T}{2}}\cdot \ln(2\pi )-{\frac {T}{2}}\cdot \ln(\sigma ^{2})-{\frac {\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right)}{2\sigma ^{2}}}}
Diese Funktion gilt es nun bzgl. der Parameter zu maximieren. Es ergibt sich also folgendes Maximierungsproblem:
σ
~
2
=
a
r
g
m
a
x
σ
2
ℓ
(
β
,
σ
2
∣
y
,
X
)
{\displaystyle {\tilde {\sigma }}^{2}={\underset {\sigma ^{2}}{\operatorname {arg\,max} }}\ \ell ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )}
β
~
=
a
r
g
m
a
x
β
ℓ
(
β
,
σ
2
∣
y
,
X
)
{\displaystyle {\tilde {\boldsymbol {\beta }}}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,max} }}\ \ell ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )}
Die beiden Score-Funktionen lauten:
∂
ℓ
(
β
,
σ
2
;
y
,
X
)
∂
β
|
β
=
b
~
σ
2
=
σ
~
2
=
−
1
2
σ
2
⋅
∂
(
(
y
−
X
β
)
⊤
(
y
−
X
β
)
)
∂
β
⏟
2
(
X
⊤
X
β
−
X
⊤
y
)
=
!
0
{\displaystyle \left.{\frac {\partial \,\ell ({\boldsymbol {\beta }},\sigma ^{2};\mathbf {y} ,\mathbf {X} )}{\partial \,{\boldsymbol {\beta }}}}\right|_{\begin{array}{ccc}{\boldsymbol {\beta }}={\tilde {\mathbf {b} }}\\\sigma ^{2}={\tilde {\sigma }}^{2}\end{array}}=-{\frac {1}{2\sigma ^{2}}}\cdot \underbrace {\frac {\partial ((\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right))}{\partial \,{\boldsymbol {\beta }}}} _{2\left(\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}-\mathbf {X} ^{\top }\mathbf {y} \right)}\;{\overset {\mathrm {!} }{=}}\;0}
∂
ℓ
(
β
,
σ
2
;
y
,
X
)
∂
σ
2
|
β
=
b
~
σ
2
=
σ
~
2
=
−
T
2
σ
2
+
1
2
σ
4
⋅
(
(
y
−
X
β
)
⊤
(
y
−
X
β
)
)
=
!
0
{\displaystyle \left.{\frac {\partial \,\ell ({\boldsymbol {\beta }},\sigma ^{2};\mathbf {y} ,\mathbf {X} )}{\partial \,\sigma ^{2}}}\right|_{\begin{array}{ccc}{\boldsymbol {\beta }}={\tilde {\mathbf {b} }}\\\sigma ^{2}={\tilde {\sigma }}^{2}\end{array}}=-{\frac {T}{2\sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}\cdot ((\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right))\;{\overset {\mathrm {!} }{=}}\;0}
Beim partiellen Ableiten wird ersichtlich, dass der Ausdruck
∂
(
(
y
−
X
β
)
⊤
(
y
−
X
β
)
)
∂
β
=
2
X
⊤
y
+
2
X
X
β
{\displaystyle {\frac {\partial \,((\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\top }\left(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right))}{\partial \,{\boldsymbol {\beta }}}}=2\mathbf {X} ^{\top }\mathbf {y} +2\mathbf {X} \mathbf {X} {\boldsymbol {\beta }}}
bereits aus der Herleitung des Kleinste-Quadrate-Schätzer bekannt ist (Schätzung des Parametervektors mit der Kleinste-Quadrate-Schätzung ). Somit reduziert sich das Maximum-Likelihood-Optimierungsproblem auf das Kleinste-Quadrate-Optimierungsproblem . Daraus folgt, dass der Kleinste-Quadrate-Schätzer (kurz KQS ) dem ML-Schätzer (kurz MLS ) entspricht:
β
~
=
b
=
(
X
⊤
X
)
−
1
X
⊤
y
{\displaystyle {\tilde {\boldsymbol {\beta }}}=\mathbf {b} =(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} }
Für die Schätzung der Parameter ergibt sich also durch diese weitere Annahme (Normalverteilungsannahme) kein Unterschied. Wenn die Störgrößen normalverteilt sind, ist
b
{\displaystyle \mathbf {b} }
Maximum-Likelihood-Schätzer und nach dem Satz von Lehmann-Scheffé bester erwartungstreuer Schätzer (best unbiased estimator – BUE ). Als Konsequenz der Gleichheit von KQ- und Maximum-Likelihood-Schätzer ergibt sich, dass auch die KQ- und die ML-Residuen gleich sein müssen
ε
~
=
(
y
−
X
β
~
)
=
(
y
−
X
b
)
=
ε
^
{\displaystyle {\tilde {\boldsymbol {\varepsilon }}}=\left(\mathbf {y} -\mathbf {X} {\tilde {\boldsymbol {\beta }}}\right)=\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)={\hat {\boldsymbol {\varepsilon }}}}
Der Maximum-Likelihood-Schätzer für die Varianz, der sich auch aus der zweiten partiellen Ableitung und dem Umstand
σ
^
2
=
ε
^
⊤
ε
^
T
−
K
⇔
σ
^
2
(
T
−
K
)
=
ε
^
⊤
ε
^
{\displaystyle {\hat {\sigma }}^{2}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{T-K}}\Leftrightarrow {\hat {\sigma }}^{2}(T-K)={\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}
ergibt, lautet:
σ
~
2
=
(
y
−
X
β
~
)
⊤
(
y
−
X
β
~
)
T
=
ε
~
⊤
ε
~
T
=
ε
^
⊤
ε
^
T
=
σ
^
2
(
T
−
K
)
T
{\displaystyle {\tilde {\sigma }}^{2}={\frac {(\mathbf {y} -\mathbf {X} {\tilde {\boldsymbol {\beta }}})^{\top }(\mathbf {y} -\mathbf {X} {\tilde {\boldsymbol {\beta }}})}{T}}={\frac {{\tilde {\boldsymbol {\varepsilon }}}^{\top }{\tilde {\boldsymbol {\varepsilon }}}}{T}}={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{T}}={\frac {{\hat {\sigma }}^{2}(T-K)}{T}}}
Der ML-Schätzer ergibt sich als durchschnittliche Residuenquadratsumme . Allerdings erfüllt der Schätzer nicht gängige Qualitätskriterien für Punktschätzer , da er keine erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Der Wert der logarithmischen Plausibilitätsfunktion, bewertet an der Stelle der geschätzten Parameter:
ℓ
(
b
,
σ
~
2
;
y
,
X
)
=
ln
(
L
(
b
,
σ
~
2
;
y
,
X
)
)
=
−
T
2
⋅
ln
(
2
π
)
−
T
2
⋅
ln
(
σ
~
2
)
−
(
y
−
X
b
)
⊤
(
y
−
X
b
)
2
σ
~
2
{\displaystyle \ell (\mathbf {b} ,{\tilde {\sigma }}^{2};\mathbf {y} ,\mathbf {X} )=\ln \left(L(\mathbf {b} ,{\tilde {\sigma }}^{2};\mathbf {y} ,\mathbf {X} )\right)=-{\frac {T}{2}}\cdot \ln(2\pi )-{\frac {T}{2}}\cdot \ln({\tilde {\sigma }}^{2})-{\frac {\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)^{\top }\left(\mathbf {y} -\mathbf {X} \mathbf {b} \right)}{2{\tilde {\sigma }}^{2}}}}
[ 1]
↑ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl , T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141 , second edition 1988, S. 221 ff.
George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl , T.C. Lee. Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York, Chichester, Brisbane, Toronto, Singapore, ISBN 978-0471624141 , second edition 1988.
Ludwig Fahrmeir , Thomas Kneib , Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2 .