Verstärker (Psychologie)

Verstärker ist ein Begriff der behavioristischen Lerntheorien und bezeichnet einen appetitiven („angenehmen“) Reiz, der kontingent (erkennbar, regelhaft) als Konsequenz eines bestimmten Verhaltens erfolgt und die Auftretenswahrscheinlichkeit oder Ausführungsgeschwindigkeit dieses Verhaltens erhöht (Verstärkung). Es hat sich eine Unterscheidung nach dem Inhalt der Verstärker eingebürgert, nach sozialen Verstärkern, Aktivitäts- oder Handlungsverstärkern, materiellen Verstärkern, symbolischen Verstärkern, verdeckten und informativen Verstärkern.^[1]

Assoziative Ansätze

Assoziative Theorien gehören zu den historisch ältesten Erklärungen der instrumentellen und operanten Konditionierung. Sie gehen auf Edward Lee Thorndike und dessen law of effect zurück.

Diese Theoretiker erklären die beobachteten Lerneffekte mit der Bildung von Assoziationen zwischen Reizen oder zwischen einem Reiz und Verhalten während der Konditionierung. Eine instrumentelle Konditionierungssituation umfasst im einfachsten Fall drei Elemente: (Umgebungs-)Reize S (stimulus), eine Reaktion R und eine Konsequenz auf die Reaktion O (outcome, hier: Verstärker). Innerhalb der Assoziationisten gibt es unterschiedliche Annahmen darüber, zwischen welchen dieser Elemente Assoziationen geknüpft werden.

S-R-Lernen

Thorndike vermutete eine S-R-Assoziation. Der Organismus verknüpft die Umgebungsreize einer bestimmten Situation mit seiner Reaktion. Der Verstärker dient dabei lediglich der Entstehung und Verstärkung dieser Assoziation, er ist selbst nicht Teil des Gelernten.

Daraus formulierte Thorndike sein law of effect: Folgen einem Verhalten in einer bestimmten Situation befriedigende Konsequenzen, führt dies zu einer Stärkung der Assoziation zwischen Situation und Reaktion. Das führt dazu, dass die Auftretenswahrscheinlichkeit der Reaktion in der Situation steigt.

Dieser Ansatz ist heute weitgehend experimentell widerlegt. In sogenannten reinforcer-devaluation-Experimenten (Verstärker-Devaluation) kann man zeigen, dass auch eine Assoziation zwischen Verstärker, S und R gebildet wird: Angenommen, wir führen instrumentelle Verstärkung mit Ratten durch. Als Verstärker dient dabei Futter; die Ratten müssen einen Hebel in einen bestimmten Käfig (= S) drücken, um verstärkt zu werden. Um nun die Wirkung des Verstärker zu sichern, lässt man die Ratten vor dem Experiment eine Zeit lang hungern. Die Ratten lernen nun, den Hebel zu drücken und werden mit Futter belohnt. Nach dieser Lernphase devaluieren wir den Verstärker – d. h. wir machen ihn weniger „wertvoll“. Das geschieht dadurch, dass wir der Ratte freien Zugang zu Futter ermöglichen. Die Ratte wird sich sattfressen. Wenn wir sie jetzt erneut in den Käfig mit dem Hebel setzen (identischer Stimulus), dann beobachten wir, dass die Ratte den Hebel viel seltener drückt (andere Reaktion), als am Ende der Lernphase. S-R-Lernen kann diesen Effekt nicht erklären, denn hätte die Ratte nur eine Assoziation zwischen den Käfigreizen und dem Hebeldrücken gelernt, hätte sie die Reaktion unvermindert stark zeigen müssen. Da wir jedoch den Verstärker devaluiert hatten und damit die Reaktionsfrequenz herabsetzen konnten, muss auch eine Assoziation mit dem Verstärker bestehen.

S-O-Lernen

Ein weiterer Ansatz betont v. a. die Assoziation zwischen Situationsreizen und Verstärker. Dabei werden zwei Prozesse unterschieden:

Modern Two-Process-Theory
Wird ein Organismus in eine Verstärkungssituation gebracht, dann erlernt er durch instrumentelle Konditionierung eine Assoziation zwischen Stimulus und Reaktion, wie bereits von Thorndike angenommen. Zusätzlich lernt er durch Klassische Konditionierung, dass der Stimulus ein zuverlässiger Prädiktor der Konsequenz ist (S-O-Assoziation). Diese Reiz-Reiz-Assoziation motiviert nun die instrumentelle Reaktion. Es wird angenommen, dass im Organismus aufgrund der S-O-Assoziation in der Verstärkungssituation ein zentraler emotionaler Zustand ausgelöst wird. Kündigen die Umgebungsreize (S) eine appetitive Konsequenz (O, z. B. Futter) an, löst dieser Stimulus eine Art „Hoffnung“ auf Futter im Organismus aus. Diese Hoffnung motiviert dann das Zeigen der instrumentellen Reaktion.

Empirische Belege geben insbesondere sogenannte transfer-of-control-Experimente. Wenn die diffusen Umgebungsreize im Organismus einen emotionalen Zustand auslösen und dieser die Reaktion motiviert, dann sollte die klassische Konditionierung eines expliziten Reizes diese Motivation noch verstärken und somit zu einer stärkeren Reaktion führen. Dafür wird vor der instrumentellen Lernphase eine klassische Konditionierung vorgenommen, in welcher ein expliziter Reiz (z. B. ein Ton) mit Futter gepaart wird. Bietet man dann diesen Ton während der instrumentellen Lernphase dar, wird die Reaktionsfrequenz tatsächlich verstärkt.

Allerdings stellte man auch fest, dass das Konzept eines generellen „zentralen emotionalen Zustands“ nicht bestätigt werden kann. Verstärkt man eine Ratte mit Futterpellets und paart in einer nachfolgenden klassischen Konditionierung einen Reiz mit Zuckerwasser, dann erhöht die Darbietung des Zuckerwasser-Reizes während der instrumentellen Verstärkung mit Pellets die Reaktionsfrequenz nicht. Da beide Reize konsumatorische Reize sind, hätten sie beide in der Ratte „Hoffnung“ auslösen sollen. Das Ergebnis weist jedoch auf eine verstärkerspezifische Assoziation hin.

R-O-Lernen

Ein modernerer Ansatz bezieht alle drei Elemente S-(R-O)in die Assoziationsbildung ein. Da eine S-O-Assoziation unter der Bedingung, dass R gezeigt wird, gelernt werden kann, wird angenommen, dass die Umgebungsreize S als diskriminativer Stimulus wirken und im Organismus die R-O-Assoziation aktivieren. Jedoch muss eine hierarchische S-(R-O) Assoziation separat nachgewiesen werden, da durch transfer-of-control Designs keine direkte Notwendigkeit der R belegt werden kann, um die zentrale emotionale Komponente zu aktivieren, die letztendlich in einer erhöhten Antwortrate resultiert.

Der Beleg der R-O-Assoziation stützt sich auf folgendes Experiment:

Zuerst führt man mit einer Ratte eine instrumentelle Konditionierung in einem Lernkäfig durch. Die Ratte muss einen horizontalen Hebel bewegen. Drückt sie ihn nach links, wird sie mit Futterpellets verstärkt; drückt sie ihn nach rechts erhält sie Zuckerwasser. Nach ausreichendem Lernen drückt die Ratte den Hebel etwa gleich oft in beide Richtungen. Nach dieser Phase führt man eine Devaluation eines der beiden Verstärker durch. Das geschieht dadurch, dass man der Ratte freien Zugang zu Futterpellets lässt (jedoch nicht zum Zuckerwasser!). Die Ratte frisst sich mit Pellets voll, was dazu führt, dass Futterpellets als Verstärker an Wirkung verlieren (s. o.).

Nun bringt man die Ratte erneut in die instrumentelle Situation. Man beobachtet nun, dass die Ratte den Hebel kaum noch nach links drückt (wo sie Pellets bekäme), sondern fast ausschließlich nach rechts, um den alternativen, nicht devaluierten Verstärker (Zuckerwasser) zu erhalten.

Dieses Ergebnis kann nicht durch S-R-Assoziationen erklärt werden. Wie bereits oben gezeigt, hätte dann die Verstärkerdevaluation keinen Einfluss auf die Assoziation zwischen Umgebungsreizen und Reaktion haben dürfen und beide Reaktionen somit unverändert auftreten müssen.

Auch S-O-Lernen bzw. die Two-Process-Theory kann das Resultat nicht erklären. Diese Theorie schließt aus, dass in derselben Reizsituation verschiedene Assoziationen zwischen bestimmten Reaktionen und bestimmten Konsequenzen gelernt werden können. Wenn eine S-O-Assoziation bestimmend wäre, dann hätte die Devaluation eines der beiden Verstärker zu einer Verminderung beider Reaktionen in der Situation führen müssen. Stattdessen wurde aber nur eine bestimmte Reaktion, die mit einem bestimmten Verstärker verknüpft war, beeinträchtigt. Es muss also spezifische Reaktions-Verstärker-Assoziationen geben.

Primäre und Sekundäre Verstärker

Es kann zwischen primären und sekundären Verstärkern unterschieden werden. Während primäre Verstärker physiologische Bedürfnisse befriedigen, z. B. Hunger stillen, sind sekundäre Verstärker lediglich die Ankündigung bzw. das Versprechen eines primären Verstärkers (s. Token-System). Ein typischer sekundärer Verstärker ist Geld, das ursprünglich selbst keine Bedürfnisse befriedigt. Sekundäre Verstärker sind durch klassische Konditionierung aus primären Verstärkern entstanden^[2] und erlangen ihre Bedeutung durch Kontingenz mit diesen Verstärkern (z. B. Geld für Nahrung). Ein Beispiel ist das sogenannte Magazintraining: Ein Versuchstier, das mit Futterpellets belohnt wird, lernt, bereits das Geräusch des in den Futterbehälter fallenden Pellets als Belohnung zu empfinden.

Verhaltensregulationstheorien

Gemeinsam ist allen assoziativen Theorien, dass sie Verstärker als bestimmte Reize ansehen. Ob ein Stimulus als Verstärker dienen kann, hängt also von den einzigartigen Eigenschaften des Reizes ab. Ein Reiz ist also entweder ein Verstärker oder nicht.

Eine neuere Sichtweise löst sich vom Fokus auf klassische Reizassoziationen. Dieser Ansatz betont vielmehr die Restriktionen auf das Verhalten, die durch einen Verstärkerplan bedingt werden.

Consummatory Response Theory

Die erste Theorie, welche sich von der Annahme, Verstärker seien besondere Reize, entfernte, war die Consummatory Response-Theory. Diese unterstellt, dass Verstärker nicht eine besondere Art von Reizen darstellen, sondern dass diese eine besondere Reaktion auslösen. Man beobachtete, dass Verstärker oft konsumatorische Reaktionen (z. B. Aufnehmen der Nahrung, Trinken) hervorrufen. Im Verhaltenssystemansatz spricht man von bestimmten Verhaltenssystemen, die durch Reize aktiviert werden (z. B. das Nahrungssystem). Verstärker stellen in der Regel Reize dar, die am Ende einer solchen Verhaltenskette dargeboten werden und das Verhaltenssystem durch eine ausgelöste konsumatorische Reaktion beenden. Damit betont man nicht die Reizeigenschaften an sich, sondern die ausgelöste Reaktion, die einen Reiz zum Verstärker machen.

Man beobachtete beispielsweise, dass Saccharin als Verstärker in Tierexperimenten dienen kann. Saccharin ist ein Süßstoff, der jedoch keinerlei biologischen Nährwert besitzt. Trotzdem kann Saccharin als Verstärker dienen, da es eine konsumatorische Reaktion auslöst. Wären es die besonderen Eigenschaften des Reizes, die einen Verstärker ausmachen, dann dürfte Saccharin nicht verstärkend wirken, da es keinerlei biologischen Wert besitzt.

Premack-Prinzip

Im Bemühen, eine nicht-zirkuläre Definition von Verstärker zu finden, hatte F. D. Sheffield (1948)^[3] darauf aufmerksam gemacht, dass die verhaltensmodifizierende Verstärkung oder Bestrafung nicht nur eine Wahrnehmung, sondern immer auch ein Verhalten auslöst. So kann man argumentieren, dass nicht Wasser, sondern das Trinken des Wassers, nicht Spielzeug, sondern das Spielen die eigentlichen Verstärker sind. In der herkömmlichen Terminologie war Verstärker immer als (appetitiver oder aversiver) Stimulus (Wahrnehmung) definiert worden. David Premack postulierte nun, dass ein Verhalten A ein Verstärker für ein anderes Verhalten B sein kann, nämlich genau dann, wenn A spontan häufiger gezeigt wird als B (im Original: „Given two responses of the different likelihood h and l, the opportunity to perform the higher probability response H after the lower probability response L will result in reinforcement of response L.“).

Um einen Verstärker zu identifizieren, ist es notwendig, die Verhaltenshäufigkeit frei von jeglicher Restriktion über eine gewisse Zeit zu erfassen (base-line-Verhaltensverteilung). So erhält man eine Skala, die angibt, wie wahrscheinlich das spontane Auftreten der erfassten Verhaltensweisen ist. Das weniger wahrscheinliche Verhalten kann man dann mit dem höherwahrscheinlichen verstärken, d. h. dessen Auftretenswahrscheinlichkeit steigern. Premack setzte Kapuzineraffen in einen Experimentier-Käfig mit drei möglichen Verhaltensweisen und stellte fest, dass sie spontan am häufigsten den Hebel bewegten, am zweithäufigsten die Tür öffneten und am seltensten den Kolben bewegten (baseline-Erfassung, Skala der Verhaltenswahrscheinlichkeiten). In der Testphase konnte eines dieser Verhalten erst ausgeführt werden, nachdem eines der anderen gezeigt wurde. Wie vom Premack-Prinzip vorhergesagt, ergab sich folgendes Muster: Die Affen bewegten häufiger den Kolben, wenn sie deshalb anschließend die Tür öffnen oder den Hebel bewegen konnten. Sie öffneten häufiger die Tür, wenn sie deshalb anschließend den Hebel bewegen konnten.

Angenommen, wir beobachten eine Ratte, die freien Zugang zu Wasser hat und nach Lust und Laune in einem Laufrad rennen kann. Wir messen, dass die Ratte während einer Stunde 50 min im Laufrad rennt und 10 min trinkt. Trinken weist also eine geringere Auftretenswahrscheinlichkeit als Laufradrennen auf. Wenn diese Ratte nun erst ins Laufrad darf, nachdem sie getrunken hat, erhöht dies die Zeit, die sie mit Trinken verbringt. Der umgekehrte Weg funktioniert nicht: Wenn sie erst trinken darf, nachdem sie im Laufrad war, trinkt sie deshalb nicht mehr als vorher. Bei einer durstigen Ratte hingegen, die lieber trinkt als läuft, ist es genau umgekehrt: Wir können die Wahrscheinlichkeit des Laufradrennens erhöhen, indem wir es zur Bedingung für Trinken machen.

Premack führte ein Experiment mit Kindergartenkindern durch. Zuerst wurden die Kinder ohne Einschränkungen beobachtet. Einige Kinder spielten in dieser Zeit lieber mit einem Spielautomaten, andere aßen lieber Bonbons. Man teilte sie in zwei Gruppen nach ihren Vorlieben ein. Nachfolgend konnte man in der Spielautomatengruppe das Bonbonessen mit dem Spielen verstärken und in der Bonbongruppe das Spielen mit dem Bonbonessen verstärken. Man konnte jedoch in keiner der Gruppen mit dem niederwahrscheinlichen Verhalten das höherwahrscheinliche verstärken.

Response-Deprivation Hypothesis

Die Response Deprivation (Verhaltenseinschränkung)-Hypothese (Timberlake & Allison, 1974) stellt eine Verallgemeinerung des Premack-Prinzips dar. Bei Premack konnte nur das in der base-line-Bedingung weniger wahrscheinliche Verhalten durch das höherwahrscheinliche verstärkt werden. Man kann jedoch jedes Verhalten zu einem Verstärker machen – indem man seine Auftretenshäufigkeit unter die base-line-Rate senkt. Damit lässt sich dann jedes beliebige andere Verhalten verstärken.

Beispiel: In der freien base-line-Bedingung verbringt eine Ratte in einer Stunde 10 min mit Laufradrennen. Im nächsten Schritt macht man das zu verstärkende Verhalten zur Bedingung für diese Laufmenge, das heißt, nur wenn die Ratte das gewünschte Verhalten zeigt, darf sie zur Belohnung ins Laufrad.

Die Hypothese lässt umgekehrt auch Schlussfolgerungen darüber zu, welche Verhaltensweisen durch Restriktionen unter ihre base-line-Rate gedrückt werden, nämlich jene, die als Verstärker wirken. Beispiel: Die Beobachtung, dass Trinken in einem Tierexperiment als Verstärker funktioniert, lässt den Schluss zu, dass die normale Trinkrate der Tiere zuvor verringert worden war.

Behavioral Bliss Point

Dieser Ansatz geht ebenfalls von der base-line-Verhaltensverteilung aus und definiert einen Verstärker nach dem auferlegten Verstärkungsplan. Beobachtet man einen Organismus in einer Situation ohne Restriktion (base-line), dann wird angenommen, dass dieser sein Verhalten zwischen zwei Verhaltensalternativen in einer präferierten Weise verteilt. Diese innewohnende Verteilungspräferenz wird als bliss point bezeichnet. Nehmen wir als Beispiel einen Studenten, der die Wahl zwischen Fernsehen und Lernen hat. Beobachten wir ihn bei der freien Wahl, so stellen wir z. B. fest, dass er pro 15 min Lernen 60 min Fernsehen schaut. Diese präferierte Verhaltensverteilung kennzeichnet den bliss-point. Diesen kann man am besten darstellen, wenn man beide Verhaltensalternativen in ein zweidimensionales Koordinatensystem einzeichnet. Die x-Achse bezeichnet die verbrachte Zeit für Verhalten x (Fernsehen) – die y-Achse die verbrachte Zeit für Verhalten y (Lernen). In unserem Fall zeichneten wir einen Punkt bei 15 min und 60 min ein – dort befindet sich der bliss-point.

Welches der beiden Verhalten nun verstärkt wird und welches als Verstärker dient, hängt einzig vom Verstärkerplan, der nun auf diese Verhaltensverteilung auferlegt wird, ab. Es wird angenommen, dass ein Organismus unter den Restriktionen eines Verstärkerplans stets motiviert ist, seinem ursprünglichen bliss-point möglichst nahe zu kommen. Das Verhalten wird also so auf beide Alternativen verteilt, dass die verbrachte Zeit mit beiden möglichst nahe an den bliss-point liegt.

Wenn wir im obigen Beispiel Lernen verstärken wollen und Fernsehen als Verstärker einsetzen wollen, müssen wir die Restriktionen so konstruieren, dass der Organismus bei 15 min Lernen nicht auf seine angestrebten 60 min Fernsehen kommen kann. Beispielsweise könnten wir festlegen, dass die verbrachte Zeit für beide Alternativen gleich sein muss – dass also 1 min Fernsehen 1 min Lernen voraussetzt bzw. 10 min Fernsehen 10 min Lernen usw. Diese Restriktion lässt sich im Koordinatensystem als ein Gerade (y=x), die um 45° ansteigt, darstellen. Der bliss-point befindet sich also rechts unterhalb der Geraden. Der Student wird nun sein Verhalten so verteilen, dass er diesem Punkt möglichst nahe kommt. Nach dem minimum-deviation-model von Staddon entspricht diese resultierende Verteilung einem Punkt, der eine orthogonale Senkrechte auf der Geraden mit dem bliss-point verbindet.

Wollen wir nun Fernsehen mit Lernen verstärken, müssen wir die Restriktionen so gestalten, dass der Organismus pro 60 min Fernsehen nicht auf seine angestrebten 15 min Lernen kommt. Wenn wir uns das Koordinatensystem mit dem bliss-point vorstellen, dann muss die Gerade, die die auferlegten Einschränkungen darstellt, so verlaufen, dass der bliss-point rechts unterhalb dieser liegt. Z. B. können wir festlegen, dass pro 1 min Lernen 10 min Fernsehen erfolgen müssen bzw. pro 6 min Lernen 60 min Fernsehen usw. Dieser Verstärkerplan stellt eine Gerade dar (y=0.1x), zu welcher der bliss-point links oberhalb liegt. So können wir Fernsehen mit Lernen verstärken und dessen Verhaltensrate erhöhen.

Generell lässt sich also vereinfachend sagen, dass eine graphische Verstärkerplanfunktion dann Verhalten x mit Verhalten y verstärkt, wenn der bliss-point links oberhalb des Graphen liegt. Verhalten y wird durch Verhalten x verstärkt, wenn der bliss-point rechts unterhalb der Funktion liegt. Verläuft die Gerade genau durch den bliss-point, dann wird kein Verstärkungseffekt auftreten, da die Verhaltensverteilung dann dem bliss-point (also der base-line-Verteilung) entsprechen wird.

Kritik

Dieses Modell geht „molar“ vor. Das bedeutet, der Organismus verteilt sein Verhalten über einen langen Zeitraum optimal. Es interessiert nicht, wie diese Verteilung zu einem gegebenen Moment zustande kommt, sondern man beobachtet das Verhalten über eine lange Zeit und schließt daraus auf das Optimum. Aber geht ein Organismus wirklich immer dermaßen vor? Versucht er tatsächlich „auf lange Sicht“ das Optimum zu erreichen, oder entscheidet er vielmehr spontan, individuell zu einem Zeitpunkt? Des Weiteren bestehen Zweifel, ob der „Wert“ einer Verhaltensalternative unter Verstärkerrestriktionen der gleiche ist, wie unter base-line-Bedingungen. Vielleicht hat im obigen Beispiel Fernsehen einen geringeren Anreiz, wenn dafür vorher lange Zeit gelernt werden muss? Zudem ist die Ermittlung der Verhaltensverteilung im Feld (also in der Realität) sehr kompliziert. Es gibt eine Vielzahl von alternativen Verhalten, die alle berücksichtigt werden müssen. Z. B. könnte der Student im obigen Beispiel dem Verstärkerplan einfach entgehen, indem er ins Kino geht oder Radio hört, statt Fernsehen zu schauen und dafür zu lernen.

Literatur

Bickel, W.K., Madden G.J. (1999): A comparison of measures of relative reinforcing efficacy and behavioral economics: cigarettes and money in smokers. In: Behavioural Pharmacology, 10 (6–7), 627–637.
DeGrandpre R.J., Bickel W.K., Hughes J.R., Layng M.P., Badger G. (1993): Unit price as a useful metric in analyzing effects of reinforcer magnitude. Journal of Experimental Analysis of Behavior, 60 (3), 641–661.
Domjan, M. (2005): The principles of learning and behavior. (5th Ed.) Wadsworth Publishing.
Domjan, M. (2004): The essentials of learning and conditioning. (3rd Ed.). Wadsworth Publishing.
Madden G.J., Bickel W.K., Jacobs E.A. (2000): Three predictions of the economic concept of unit price in a choice context. Journal of Experimental Analysis of Behavior, 73 (1), 45–64.
Rescorla R.A., Solomon R.L. (1967): Two-process learning theory: Relationships between Pavlovian conditioning and instrumental learning. Psychological Review, 74 (3), 151–182.
Timberlake, W. (1993): Behavior systems and reinforcement: an integrative approach. Journal of Experimental Analysis of Behavior, 60 (1), 105–28.
Urcuioli P.J., DeMarse T., Lionello-DeNolf K.M. (2001): Assessing the contributions of S-O and R-O associations to differential-outcome matching through outcome reversals. J. of Exp. Psychology: Animal Behavior Processes, 27 (3), 239–251.

Einzelnachweise

↑ Franz J. Schermer: Lernen und Gedächtnis. Kohlhammer Verlag, 2013, ISBN 978-3-17-025414-5 (google.de [abgerufen am 20. Mai 2017]).
↑ Werner Herkner: Psychologie. Springer-Verlag, 2013, ISBN 978-3-7091-7644-3, S. 162 (eingeschränkte Vorschau in der Google-Buchsuche).
↑ Avoidance training and the contiguity principle. Sheffield, Fred D. Journal of Comparative and Physiological Psychology, Vol 41(3), Jun 1948. Abgerufen am 29. Oktober 2011.

[1] Franz J. Schermer: Lernen und Gedächtnis. Kohlhammer Verlag, 2013, ISBN 978-3-17-025414-5 (google.de [abgerufen am 20. Mai 2017]).

[2] Werner Herkner: Psychologie. Springer-Verlag, 2013, ISBN 978-3-7091-7644-3, S. 162 (eingeschränkte Vorschau in der Google-Buchsuche).

[3] Avoidance training and the contiguity principle. Sheffield, Fred D. Journal of Comparative and Physiological Psychology, Vol 41(3), Jun 1948. Abgerufen am 29. Oktober 2011.

[1]

[2]

[3]