Summe der Abweichungsquadrate

(Weitergeleitet von Variation und Kovariation)

In der Statistik ist die Summe der Abweichungsquadrate (SAQ bzw. englisch sum of squared deviations, kurz SSD), auch Abweichungsquadratsumme, kurz Summe der Quadrate oder Quadratsumme (SQ oder Q bzw. englisch sum of squares, kurz SS) genannt, die Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittel.

Abweichungsquadrate in Blau

Die Summe der Abweichungsquadrate ist ein Maß für die Stärke der Schwankungen der Messwerte um deren Mittelwert und damit ein Maß für die „Variation“ eines Merkmals (Streuungsmaß). Eine Verallgemeinerung der Summe der Abweichungsquadrate stellt die Summe der Abweichungsprodukte (SAP bzw. englisch sum of products of deviations, kurz SPD), auch Abweichungsproduktsumme, kurz Summe der Produkte (SP bzw. englisch sum of products, kurz SP) oder Produktsumme (selten auch Summe der Kreuzprodukte bzw. Kreuzproduktsumme) dar und ist ein Maß für den Grad der gemeinsamen Variation (der „Kovariation“) zweier Merkmale und .[1] Die Summe der Abweichungsprodukte ist die Summe der Produkte der mittelwertbereinigten Messwertpaare.

Das nicht-standardisierte „mittlere Abweichungsquadrat“ von Messwerten heißt empirische Varianz, das nicht-standardisierte „mittlere Abweichungsprodukt“ von Messwertpaaren empirische Kovarianz. Die Quadratsumme ist also der Zähler der empirischen Varianz, und die Produktsumme ist der Zähler der empirischen Kovarianz. Die Quadratsumme und die Produktsumme werden vielfältig angewandt, z. B. beim Bestimmtheitsmaß oder beim Bravais-Pearson-Korrelationskoeffizienten. Der Verschiebungssatz liefert wichtige Rechenregeln für die Quadratsumme und die Produktsumme. In der Statistik wichtige Quadratsummen sind die totale Quadratsumme und die erklärte Quadratsumme. Eine weitere in der Statistik wichtige Quadratsumme ist die Residuenquadratsumme, die bei der Methode der kleinsten Quadrate eine große Rolle spielt.

Definition

Bearbeiten

Die Abweichungsquadratsumme ergibt sich als Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittelwert  

 .

Alternativ lässt sich die Abweichungsquadratsumme durch den Verschiebungssatz von Steiner wie folgt angeben:

 .

Um den Unterschied zur Produktsumme deutlicher herauszustellen, wird sie auch als   notiert. Für Anwendungen, besonders in der Varianzanalyse, wird die Notation der Abweichungsquadratsumme mit   bevorzugt.

Falls das Merkmal keinerlei Variabilität aufweist, d. h.  , dann ergibt sich eine Quadratsumme (und eine Varianz) von Null. In die Berechnung der Summe gehen insgesamt   Abweichungsquadrate ein, sodass die Abweichungsquadratsumme umso größer ist, je größer die Stichprobengröße ist.

Mittleres Abweichungsquadrat

Bearbeiten

Um ein von der Stichprobengröße unabhängiges Maß für die Variation der Merkmalswerte zu erhalten, muss eine Normierung vorgenommen werden. Die Normierung geschieht dadurch, dass man die Abweichungsquadratsumme durch die Anzahl der Freiheitsgrade   dividiert:[2]

 .[3]

Das so gewonnene Streuungsmaß stellt eine Art „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat dar (englisch mean square, kurz: MS), das mit   bzw.   (Mittlere Quadrate der Abweichungen bzw. Durchschnittliche Quadrate der Abweichungen) abgekürzt wird. Das „mittlere Abweichungsquadrat“ (oft fälschlicherweise „mittlere Quadratsumme“ genannt) ist die empirische Varianz, wird aber in der Varianzanalyse nicht als Varianz, sondern als mittlere Abweichungsquadrat bezeichnet. Die Abweichungsquadratsumme ist also die  -fache empirische Varianz   der Messwerte.[4] Das mittlere Quadrat der Residuen heißt „mittleres Residuenquadrat“.[5]

Verallgemeinerung

Bearbeiten

Die Abweichungsproduktsumme bzw. die Summe der Abweichungsprodukte[6] ist eine Verallgemeinerung der Abweichungsquadratsumme und ist definiert als Summe der Produkte der mittelwertbereinigten Messwertpaare:

  .

Insbesondere gilt  . Die empirische Kovarianz   ist die Summe der Abweichungsprodukte der Messwerte von   und   dividiert durch  :

 .

Die empirische Kovarianz kann somit als „mittleres“ bzw. „durchschnittliches“ Abweichungsprodukt interpretiert werden.

Spezielle Quadratsummen

Bearbeiten

Residuenquadratsumme

Bearbeiten

Ausgehend von den Residuen, die den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade messen, lässt sich eine Residuenquadratsumme durch die Summe der Abweichungsquadrate der Residuen wie folgt definieren

 .

Hypothesenquadratsumme

Bearbeiten

Die Hypothesenquadratsumme (englisch sum of squares due to hypothesis) tritt beim Testen der allgemeinen linearen Hypothese auf. Sei   eine   Restriktionsmatrix, mit   Sei weiterhin angenommen, dass die   Restriktionen an den   Parametervektor   ausgedrückt werden können als : , wobei   ein  -Vektor bestehend aus bekannten Konstanten darstellt. Die Hypothesenquadratsumme ist dann gegeben durch[7]

 .

Anmerkungen

Bearbeiten
  1. Das gemeinsame Variieren zweier oder mehrerer Merkmale bezeichnet man als „Ko-Variation“.
  2. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  3. Lothar Sachs: Statistische Auswertungsmethoden, S. 400.
  4. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6. durchges. u. aktualisierte Aufl. 2013, S. 46.
  5. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 335.
  6. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2018, ISBN 978-3-662-56657-2, S. 404
  7. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 810