Randomized-Response-Technik

Die Randomized-Response-Technik (deutsch randomisierte Antwort-Technik) ist eine Methode der Psychologie und der Sozialwissenschaften, bestimmte Verfälschungen von Interviewantworten zu verringern.

Bei manchen Befragungsthemen können ehrliche Antworten für die befragte Person peinlich oder inkriminierend sein, oder durch den Effekt der sozialen Erwünschtheit verfälscht werden. Dann bietet die Randomized-Response-Technik eine Möglichkeit, durch Anonymisierung das wahre Ergebnis der Befragung zu schätzen. Indem sozusagen nicht die Person, sondern die gestellte Frage anonymisiert wird, können in derselben Befragung persönliche Details wie Namen, Alter und Adresse erfasst werden, ohne dass die (wahre) Antwort einer bestimmten Person zugeordnet werden kann.

Das Konzept ist verwandt mit der glaubhaften Abstreitbarkeit (englisch plausible deniability). Während in der glaubhaften Abstreitbarkeit eine Person glaubhaft behaupten kann, eine andere Person hätte zu etwas „Ja“ gesagt, kann die befragte Person dank RRT glaubhaft behaupten, sie hätte zwar zu etwas „Ja“ gesagt, aber ihr sei eine andere Frage gestellt worden.

Verfahren

Die randomisierte Antwort-Technik wurde im Laufe der Zeit immer weiterentwickelt und neue Varianten hinzugefügt. Als Beispiel folgt die Forced Response Methode von Boruch (1971). Bevor die „sensitive Frage“ beantwortet wird, entscheidet ein Zufallsgenerator, ob die befragte Person ehrlich antworten soll oder mit „Ja“. Der Interviewer weiß nicht, was der Zufallsgenerator entschieden hat, wodurch die „Ja“-Antwort, also das Eingeständnis der peinlichen Eigenschaft, geschützt wird. Weitere gängige Varianten sind die

Unrelated Question Technique (UQT)
Two Step Procedure
Kartendesign nach Kuk
Warners Ursprungsversion

Beispiel

Man will den Anteil der Bevölkerung, der schon einmal unter Alkoholeinfluss Auto gefahren ist, bestimmen. Jeder Befragte (dieser wird rein zufällig aus der Bevölkerung ausgewählt) bekommt drei Karten vom Befrager. Jede Karte ist mit einer Frage versehen, wobei zum Beispiel die erste Karte die Frage „Sind Sie schon einmal unter Alkoholeinfluss Auto gefahren?“, die zweite Karte die Frage „Ist hier ein schwarzes Dreieck zu sehen?“ (wobei hier kein schwarzes Dreieck zu sehen ist) und die dritte Karte ebenfalls die Frage „Ist hier ein schwarzes Dreieck zu sehen?“ (wobei hier in der Tat ein schwarzes Dreieck zu sehen ist) enthalten. Der Befragte bekommt alle drei Karten verdeckt ausgehändigt. Ohne dass der Fragende die Karten sieht, zieht der Befragte eine der Karten und beantwortet diese lediglich mit „Ja“ oder „Nein“. Der Interviewer weiß jetzt nicht, welche der Fragen der Befragte beantwortet hat. Somit hat der Befragte keinen Grund, bei dieser Umfrage unwahr zu antworten.
Angenommen, es werden 3000 Personen befragt, wobei davon 1200 Personen mit „Ja“ geantwortet haben (auf welche Frage sich diese Antwort bezieht, spielt hier keine Rolle). Im Durchschnitt hat davon rund ein Drittel, also ungefähr 1000 Personen, die Karte mit dem schwarzen Dreieck gezogen und wahrheitsgemäß mit „Ja“ darauf geantwortet. Weitere 1000 Personen wiederum zogen die Karte ohne Dreieck (und haben daher mit "Nein" geantwortet). Ebenfalls ungefähr 1000 Personen zogen die Karte mit der Alkoholfrage, der nun die verbleibenden 200 "Ja"-Antworten zugeteilt werden können. Daher lässt sich sagen, dass etwa 200 (also 20 %) von 1000 befragten Personen schon einmal unter Alkoholeinfluss Auto gefahren sind.

Anwendung

Diese Fragestellung wurde während des Vietnam-Krieges angewendet, als die US-Armeeführung wissen wollte, welcher Anteil der dort stationierten US-Truppen Drogen konsumierte. Gerüchten zufolge war dieser Anteil sehr hoch, weshalb man dies empirisch überprüfen wollte. Bei einer direkten Fragemethode hätte man höchstwahrscheinlich ein sehr ungenaues Ergebnis erhalten, da Drogenkonsum ja immerhin strafbar ist.

In einem Vergleich zwischen öffentlichen Statistiken zu Doping- und Drogenkonsum (der dt. Nationalen Anti-Doping Agentur) und den Ergebnissen einer Studie mit RRT zeigte sich 2010 ein wesentlicher Unterschied: So gaben befragte Sportler und Sportlerinnen ein (teils vielfach) häufigeres Konsumverhalten an, als offiziell erhoben bzw. angegeben wird.^[1]

Originalversion

In der Originalversion von Warner (1965) ist der Ablauf etwas anders: Die „sensitive Frage“ wird in zwei komplementären Versionen formuliert, und der Zufallsgenerator entscheidet, welche der Fragen beantwortet werden soll (und zwar ehrlich). Der Interviewer bekommt also ein „Stimmt“ oder „Stimmt nicht“ zur Antwort, ohne zu wissen, auf welche Frage. Aus mathematischen Gründen darf die Wahrscheinlichkeitsverteilung nicht „fair“ (½ zu ½) sein. Ist p die Wahrscheinlichkeit, mit der die sensitive Frage beantwortet werden soll, und $\Theta _{MM}$ der wahre Anteil der Befragten mit der peinlichen Eigenschaft, so setzt sich der Anteil der „Stimmt“-Antworten ${\tfrac {Y}{n}}$ , wobei $Y$ die Anzahl aller „Stimmt“-Antworten ist und $n$ die Gesamtanzahl der befragten Menschen, wie folgt zusammen:

${\tfrac {Y}{n}}=p\cdot \Theta _{MM}+(1-p)\cdot (1-\Theta _{MM})$

Aufgelöst nach $\Theta _{MM}$ erhält man

$\Theta _{MM}={\frac {{\frac {Y}{n}}+p-1}{2\cdot p-1}}$

Mathematische Herleitung der Formel

Es wird vom Stichprobenraum $\{A,B\}$ ausgegangen. Der Stichprobenraum besteht aus den Ereignissen

{\text{A}}={\text{Antwort lautet Ja}}

und

{\text{B}}={\text{Antwort lautet Nein}}

.

Die Zufallsvariablen $Y_{1},\ldots ,Y_{n}$ seien unabhängig und identisch verteilt. Jede dieser Zufallsvariablen kann man als eine befragte Person ansehen. Die jeweiligen Wahrscheinlichkeiten für die beiden Ereignisse seien $P(Y_{i}=A)=\Theta$ sowie $P(Y_{i}=B)=1-\Theta$ . Dieses $\Theta$ stellt also in unserem Beispiel den tatsächlichen Anteil an Personen dar, die schon einmal unter Alkoholeinfluss Auto gefahren sind. Die Wahrscheinlichkeit $\Theta$ ist jedoch unbekannt. Nun führt man ein Zufallsexperiment mit den Ausfällen A und B und den bekannten Wahrscheinlichkeiten $p$ und $1-p$ durch. Das Ergebnis dieses Zufallsexperiments wird allerdings nur vom Befragten beobachtet und nicht vom Fragenden. Der Befragte teilt dem Fragenden dann mit, ob das Ergebnis mit seiner Gruppenzugehörigkeit (also mit A oder B) übereinstimmt. Nun kann man eine neue Zufallsvariable wie folgt definieren:

X_{i}={\begin{cases}1,&{\text{falls Proband mit Ja antwortet}}\\0,&{\text{falls Proband mit Nein antwortet}}\end{cases}}

Als Information bekommt man dann die Realisierungen der Zufallsvariablen $X_{1},\ldots ,X_{n}$ . Man kann nun die Wahrscheinlichkeit für $X_{i}=1$ als bedingte Wahrscheinlichkeit wie folgt darstellen:

P(X_{i}=1)=P(Y_{i}=A)\cdot P(X_{i}=1|Y_{i}=A)+P(Y_{i}=B)\cdot P(X_{i}=1|Y_{i}=B)

=\Theta \cdot p+(1-\Theta )\cdot (1-p)

Entsprechend kann man auch die Wahrscheinlichkeit für $P(X_{i}=0)$ darstellen:

P(X_{i}=0)=P(Y_{i}=A)\cdot P(X_{i}=0|Y_{i}=A)+P(Y_{i}=B)\cdot P(X_{i}=0|Y_{i}=B)

=\Theta \cdot (1-p)+(1-\Theta )\cdot p

Sei nun Y die Anzahl der „Ja“-Antworten, dann gilt für Y:

Y=\sum _{i=1}^{n}{X_{i}}

Da jedes $X_{i}$ nur die Werte 1 und 0 annehmen kann mit Wahrscheinlichkeit $P(X_{i}=1)$ und $P(X_{i}=0)=1-P(X_{i}=1)$ , sind die $X_{i}$ $B(1,P(X_{i}=1))$ -verteilt. Also ist $Y$ $B(n,P(X_{i}=1))$ -verteilt. Nun kann man $P(X_{i}=1)$ durch den Stichprobenanteil der Einser schätzen, also die Anzahl aller Einser in Bezug auf die Gesamtanzahl aller Ergebnisse. Somit ergibt sich:

P(X_{i}=1)={\frac {Y}{n}}

Man kann nun den Momentenschätzer für $\Theta$ mittels folgender Gleichung bestimmen:

{\frac {Y}{n}}=\Theta \cdot p+(1-\Theta )\cdot (1-p)=\Theta \cdot (p-(1-p))+1-p=\Theta \cdot (2p-1)+(1-p)

Durch Umformen erhält man dann den Momentenschätzer für $\omega$ :

\Theta _{MM}={\frac {{\frac {Y}{n}}-(1-p)}{2p-1}}

wobei man hieran sieht, dass diese Methode nur für $p\not ={\tfrac {1}{2}}$ gilt.

Man kann nun noch den Erwartungswert dieses Schätzers bestimmen:

E(\Theta _{MM})={\frac {1}{2p-1}}\cdot (E({\tfrac {Y}{n}}-(1-p))={\frac {1}{2p-1}}\cdot [\Theta \cdot p+(1-\Theta )(1-p)-(1-p)]=\Theta

Also ist $\displaystyle {\Theta _{MM}}$ ein erwartungstreuer Schätzer für $\displaystyle \Theta$ .

Beispiel

Alternative 1: „Ich bin schon einmal unter Alkoholeinfluss Auto gefahren.“
Alternative 2: „Ich bin noch nie unter Alkoholeinfluss Auto gefahren.“

Die Befragten würfeln verdeckt und sollen nur bei einer 6 die erste Frage beantworten, sonst die zweite $(p={\tfrac {1}{6}})$ . Der Anteil der „Stimmt“-Antworten setzt sich nun zusammen aus denen, die schon einmal unter Alkoholeinfluss Auto gefahren sind und eine 6 gewürfelt haben und denen, die noch nie unter Alkoholeinfluss Auto gefahren sind und eine andere Zahl gewürfelt haben. Von 100 Befragten mögen 75 mit „Stimmt“ antworten ( ${\tfrac {Y}{n}}={\tfrac {3}{4}}$ ). Einsetzen in die Formel ergibt

$\Theta _{MM}={\frac {{\tfrac {3}{4}}+{\tfrac {1}{6}}-1}{2\cdot {\tfrac {1}{6}}-1}}={\frac {1}{8}}$

Wenn alle Befragten ehrlich waren, beträgt der wahre Anteil von Menschen, die schon einmal unter Alkoholeinfluss Auto gefahren sind $\Theta _{MM}={\tfrac {1}{8}}$ , also 12,5 %.

Siehe auch

Literatur

C. Hesse: Das kleine Einmaleins des klaren Denkens. (= Beck’sche Reihe.) 2009, S. 284–303.
Vorlesungsskript Mathematische Statistik SS 2010 von Christian Hesse, Universität Stuttgart.
S. L. Warner: Randomized response: a survey technique for eliminating evasive answer bias. In: Journal of the American Statistical Association 60, 1965, S. 63–69.
B. G. Greenberg et al.: The Unrelated Question Randomized Response Model: Theoretical Framework. In: Journal of the American Statistical Association 64(326), 1969, S. 520–539.
Arijit Chaudhuri, Rahul Mukerjee: Randomized response: theory and techniques.
M. Ostapczuk, M. Moshagen, Z. Zhao & J. Musch: Assessing sensitive attributes using the randomized-response-technique: Evidence for the importance of response symmetry. In: Journal of Educational and Behavioral Statistics 34, 2009, S. 267–287.
M. Ostapczuk, J. Musch & M. Moshagen: A randomized-response investigation of the education effect in attitudes towards foreigners. In: European Journal of Social Psychology 39, 2009, S. 920–931.

Einzelnachweise

↑ Heiko Striegel, Rolf Ulrich & Perikles Simon: Randomized response estimates for doping and illicit drug use in elite athletes. In: Drug and alcohol dependence 106(2–3), 2010, S. 230–232, doi:10.1016/j.drugalcdep.2009.07.026.

[1] Heiko Striegel, Rolf Ulrich & Perikles Simon: Randomized response estimates for doping and illicit drug use in elite athletes. In: Drug and alcohol dependence 106(2–3), 2010, S. 230–232, doi:10.1016/j.drugalcdep.2009.07.026.

[1]