Dummy-Variable

Als Dummy-Variable (auch Designvariable, Indikatorvariable, boolesche Variable, Stellvertreter-Variable oder selten Scheinvariable^[1]; englisch dummy variable) bezeichnet man in der statistischen Datenanalyse eine Variable mit den Ausprägungen 1 und 0 (ja-nein-Variable), die als Indikator für das Vorhandensein einer Ausprägung einer mehrstufigen Variablen dient. Diese der Dummy-Variable zugrunde liegende Variable kann ein beliebiges Skalenniveau haben.

Anwendungen und Beispiele

Bei statistischen Auswertungen kann es hilfreich sein zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. Zu diesem Zweck bildet man eine Dummy-Variable mit den Ausprägungen 1 und 0:

1 = Ausprägung liegt vor
0 = Ausprägung liegt nicht vor

Die Überführung einer kategorialen Variable in eine künstliche numerische Variable nennt man Kodierung (s. u.).

Beispiel:

Bei einer Wahlumfrage gibt eine kategoriale Variable an, welche Partei der Befragte wählen würde. Um den Anteil der CDU-Wähler zu ermitteln, benutzt man eine Dummy-Variable mit den Ausprägungen 1 = CDU-Wähler und 0 = kein CDU-Wähler.

Bei intervallskalierten Variablen werden Dummys oft benutzt, um anzuzeigen, ob ein Wert dichotom unter oder über einer bestimmten Grenze liegt.

Beispiel:

Die Dummy-Variable bekommt den Wert 1, wenn die befragte Person jünger als 50 Jahre ist, und ansonsten den Wert 0.

Dummykodierung

Die Dummykodierung wird zur Erzeugung von Indikatorvariablen (neben der Effektkodierung und Kontrastkodierung) verwendet. Diese Indikatorvariablen werden zur Abbildung eines mehrstufigen nominalskalierten Merkmals verwendet. Über das oben gezeigte (zweistufige) Beispiel hinaus, können $k$ Ausprägungen einer kategorialen Variable mit $k-1$ Dummy-Variablen abgebildet werden. Im Allgemeinen ist die Dummykodierung für eine kategoriale Variable $x$ mit $k$ Kategorien, wobei $x\in \{1,\ldots ,k\}$ , wie folgt definiert: Zunächst muss aus Gründen der Identifizierbarkeit eine Referenzkategorie festgelegt werden, z. B. die Kategorie $k$ . Die Variable $x$ kann dann mit $k-1$ Dummyvariablen $x_{1},\ldots ,x_{k-1}$ kodiert werden. Formell:

x_{j}={\begin{cases}1&{\text{falls}}\quad x=j\\0&{\text{sonst.}}\end{cases}}\quad ,j=1,\ldots ,k-1

.

Für die Referenzkategorie erhält man $x_{1}=\ldots =x_{k-1}=0$ .^[2]

Beispiel

Wird das obige Beispiel durch die Hinzunahme von anderen Parteien erweitert, ergibt sich folgende Kodierung (x1 entspricht der ersten Dummy-Variable, x2 der zweiten usw.):

Partei	x1	x2	x3
CDU	1	0	0
SPD	0	1	0
Die Linke	0	0	1
Die Grünen	0	0	0

Mit der Dummy-Variable x1 wird codiert, ob eine Person die CDU präferiert oder nicht, mit der zweiten ob eine Person die SPD präferiert oder nicht und mit der dritten, ob eine Person die Linke präferiert. Wird keine der Parteien bevorzugt, ergibt sich automatisch, dass die Grünen präferiert werden (Referenzkategorie). Aus der Dummykodierung in diesem Beispiel folgt, dass eine Präferenz für keine Partei, mehrere Parteien oder eine nicht aufgeführte Partei nicht abgebildet werden kann.

Anwendung

Für die logistische Regressionsanalyse kann es von Interesse sein, die Wahrscheinlichkeit für die Ausprägung einer Variablen zu operationalisieren, die zuvor dummykodiert werden muss. Dummykodierte Variablen können ebenfalls als erklärende Variablen in einer multiplen linearen Regression verwendet werden. Die Regressionsparameter in einer Regression mit dummykodierten Prädiktorvariablen entsprechen den Abweichungen der Gruppenmittelwerte von der durchgängig mit Null kodierten Referenzgruppe. Damit bietet sich die Dummykodierung für den Vergleich mehrerer Experimentalbedingungen gegenüber einer Kontrollbedingung an.

Problematisch ist, dass die Wahl der Kodierung beliebig und einer geeigneten Referenzgruppe nicht evident ist (welche Referenz wird beim Vergleich von fünf verschiedenen Ländern gewählt?). Die Wahl der Referenzgruppe sollte jedoch aus Gesichtspunkten der Interpretation Sinn ergeben. Ebenfalls korrelieren die Dummy-Variablen, da die Referenzgruppe jeweils den gleichen Wert aufweist. Dies führt dazu, dass nicht voneinander unabhängige Varianzanteile kodiert werden.

Literatur

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.
Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.
Bortz, J. Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Heidelberg: Springer Medizin Verlag
Wentura, D. Pospeschill, M. (2015). Multivariate Datenanalyse – Eine kompakte Einführung. Heidelberg: Springer

Weblinks

http://www.lrz-muenchen.de/~wlm/ilm_d6.htm
http://www.uibk.ac.at/econometrics/einf/09p.pdf (PDF-Datei; 174 kB)

Einzelnachweise

↑ Bernd Rönz, Hans G. Strohe (1994), Lexikon Statistik, Gabler Verlag, S. 90.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 32.

[Roenz1994-1] Bernd Rönz, Hans G. Strohe (1994), Lexikon Statistik, Gabler Verlag, S. 90.

[2] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 32.

[1]

[2]