Theory of Visual Attention

Die Theory of Visual Attention (TVA) ist eine auf den dänischen Psychologen Claus Bundesen^[1] zurückgehende Theorie visueller Aufmerksamkeit, die mit Hilfe mathematischer Gleichungen formuliert ist.^[2]^[3] Durch diese Formalisierung kann sie viele psychologische Befunde zur visuellen Aufmerksamkeit genau beschreiben, integrieren und erklären, darunter auch solche aus Experimenten, die sich nicht direkt mit visueller Aufmerksamkeit beschäftigen.^[4]

Geschichte

Die ersten Überlegungen zur TVA wurden in den 1980er Jahren veröffentlicht, als sogenanntes fixed-capacity independent race model der Aufmerksamkeit (FIRM).^[5]^[6] Die Grundidee dieses Modells ist, sich – metaphorisch gesprochen – Prozesse der visuellen Aufmerksamkeit als einen Wettlauf vorzustellen, in dem die einzelnen Elemente im visuellen Feld um die Wette zu einem Verarbeitungsmechanismus rennen, der eine begrenzte Kapazität hat. Nur die ersten Elemente können hier aufgenommen und weiterverarbeitet werden. Bei der Ausformulierung des FIRM lag der Fokus auf speziellen experimentellen Aufgaben, in denen die Versuchspersonen kurz gezeigte Buchstaben oder Zahlen identifizieren (sogenannter whole report, Ganzbericht, oder partial report, Teilbericht). Die spätere Ausformulierung als TVA erlaubt es dann, auch andere experimentelle Aufgaben (wie beispielsweise visuelle Suche) zu erklären.^[2]^[7]

Weiterentwicklungen des Modells, die seinen Anwendungsbereich erweitern, stammen beispielsweise von dem amerikanischen Psychologen Gordon Logan. Er hat Auswirkungen der Distanz zwischen Elementen im visuellen Feld und von Gruppierung ähnlicher Elemente sowie Mechanismen exekutiver Kontrolle in die TVA eingearbeitet. Dies führte zur sogenannten CTVA (Code Theory of Visual Attention, Code hier von contour detector)^[8]^[9] und zur ECTVA (Executive Control of TVA)^[10].

2005 wurde die TVA zur NTVA (Neural Theory of Visual Attention) weiterentwickelt.^[11] Hierdurch wurde eine Erklärung der TVA auf der Ebene neuronaler Mechanismen ermöglicht.

In den vergangenen Jahren ist die TVA erfolgreich angewendet worden, um klinische Störungen näher zu beschreiben, beispielsweise Neglect und Simultanagnosie als Folgen von Schlaganfällen, Dyslexie, die Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung oder die Folgen des normalen Alterns.^[12]

Hintergrund

Visuelle Aufmerksamkeit hat eine Filterfunktion (sie wählt aus, was genauer beachtet wird und filtert anderes aus) und eine Bewusstseinsfunktion (sie erlaubt es, Gegenstände zu erkennen). Während viele Theorien visueller Aufmerksamkeit die beiden Prozesse des Erkennens (engl. "recognition") und der Auswahl (engl. "selection") sowohl zeitlich als auch strukturell trennen, geht die TVA davon aus, dass beide Prozesse in einem einzigen Mechanismus in Form eines Wettlaufs verwirklicht sind. Mit anderen Worten: Wenn ein Objekt im visuellen Feld erkannt wird, wird es gleichzeitig auch selektiert und umgekehrt.

Mit der Vereinigung von Selektion und Erkennen versucht die TVA die lange diskutierte Problematik aufzulösen, ob Selektion früh (d. h. vor dem Erkennen von Reizen, siehe Broadbent, 1958^[13]) oder spät (d. h. nach z. B. inhaltlicher Analyse der Reize, siehe Deutsch & Deutsch, 1963^[14]) stattfindet.

Die TVA erklärt Aufmerksamkeit durch zwei aufeinanderfolgende Prozesse, Filtern und Kategorisieren („pigeonholing“). Auf der ersten Stufe werden die perzeptorischen Merkmale repräsentiert und gewichtet, während auf der zweiten Stufe diese Merkmale kategorisiert werden (zum Beispiel „Objekt X hat Merkmal i“ oder „Objekt X gehört zur Kategorie A“).

Während des Filterns treten alle im visuellen Feld befindlichen Objekte in einer Art Wettlauf gegeneinander an, das sich durchsetzende Objekt kann daraufhin erst kategorisiert werden. Eine solche Kategorisierung bedeutet gleichzeitig, dass das Objekt in das visuelle Kurzzeitgedächtnis (VSTM, engl. „visual short term memory“) enkodiert wurde. Ist im VSTM kein Platz vorhanden, kann das Objekt nicht kategorisiert werden und wird daher nicht bewusst verarbeitet.

Parameter zur Beschreibung von Aufmerksamkeit

Die TVA beschreibt Aufmerksamkeit durch verschiedene Parameter. Anders als in vielen anderen computationalen Modellen lassen sich diese Parameter inhaltlich interpretieren, weswegen sie nicht nur für die Grundlagenforschung, sondern auch für die Anwendung etwa in der Klinischen Psychologie interessant sind. Die für die Anwendung wichtigsten Parameter sind C, die Geschwindigkeit der visuellen Informationsverarbeitung (gemessen in Hertz), K, die Kapazität des visuellen Kurzzeitgedächtnisses (typischerweise 3 oder 4 Elemente), α, die Selektivität beim Unterscheiden relevanter von irrelvanten Elementen, w_index, das das relative Gewicht der linken und rechten Hälfte des visuellen Feldes beschreibt. Generell kann man mit einem Gewichtsparameter w formalisieren, welchen Anteil der Gesamtkapazität ein bestimmtes Element erhält. Der Parameter t₀ beschreibt schließlich die maximale Zeit, die ein Element gezeigt werden kann, ohne dass es Verarbeitungsprozesse auslöst, eine Art Schwellenwert.^[12]

Filtern

Die im Folgenden erläuterte mathematische Formalisierung der TVA ist relativ stark standardisiert und kann in unterschiedlichen Veröffentlichungen nachgelesen werden.^[3] Eine Beschreibung der wichtigsten Parameter ohne den Formalismus bietet Habekost.^[12]

Auf dieser ersten Stufe werden zunächst alle im rezeptiven Feld befindlichen Objekte gewichtet. Dabei ist das Gewicht eines Objektes $w_{x}$

$w_{x}=\sum _{j\in R}\eta (x,j)\cdot \pi _{j}$ ,

wobei

$R$ die Menge aller (visuellen) Kategorien ist
- eine visuelle Kategorie kann eine bestimmte Farbe, Form, Orientierung etc. sein
- alle Kategorien werden „auf gleicher Ebene“ berechnet, also nicht nach Dimensionen sortiert/gewichtet
$\eta (x,j)$ die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie j gehört
- die sensorische Evidenz kann z. B. durch eine verschwommene Darstellung des Objektes verringert sein
- die sensorische Evidenz kann z. B. durch Ähnlichkeit zu beachtenden Kategorien auch erhöht sein
$\pi _{j}$ die Relevanz der Kategorie j für den Beobachter ist
- solche Kategorien, die für den Beobachter wichtiger sind, fallen mehr ins Gewicht

Somit wird top-down-Prozessen insofern Rechnung getragen, als die Relevanz einer bestimmten Kategorie für den Beobachter in die Gewichtung mit einfließt. Gleichzeitig werden durch die sensorische Evidenz auch bottom-up-Prozessen berücksichtigt.

Beispiele

Beispiel 1 Bei einer Suchaufgabe soll ein Proband angeben, welche rote Ziffern dargeboten werden. Als Distraktoren dienen rote Buchstaben sowie blaue Ziffern und Buchstaben.

Nun kann man das attentionale Gewicht dieser Objekte berechnen:

$w_{x}=\eta (Objekt-ist-rot)\cdot \pi _{rote-Objekte}+\eta (Objekt-ist-blau)\cdot \pi _{blaue-Objekte}$

Theoretisch müssten auch alle anderen Kategorien miteinfließen, sie werden hier der Einfachheit halber weggelassen, da ihre Relevanz 0 ist und sie daher keinen Einfluss auf die Werte haben.

In diesem einfachen Beispiel lassen sich die Gewichte der einzelnen Objekte leicht berechnen. Gehen wir zunächst davon aus, dass das Gewicht der Kategorie „rot“ 0,9 und die der Kategorie „blau“ 0,1 ist. Die sensorische Evidenz sei der Einfachheit halber 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, blau nie als rot etc.).

$w_{roterBuchstabe}=1\cdot 0{,}9+0\cdot 0{,}1=0{,}9$
$w_{roteZiffer}=1\cdot 0{,}9+0\cdot 0{,}1=0{,}9$
$w_{blauerBuchstabe}=0\cdot 0{,}9+1\cdot 0{,}1=0{,}1$
$w_{blaueZiffer}=0\cdot 0{,}9+1\cdot 0{,}1=0{,}1$

Die blauen Objekte erhalten also nur ein sehr geringes Gewicht, während alle roten Objekte ein hohes Objekt Gewicht erhalten. Wichtig ist, dass hier Antwortkategorien wie „Ziffer“ oder „Buchstabe“ noch keine Rolle spielen, sondern nur Filterkategorien „rot“ oder „blau“.

Dieses Beispiel ist denkbar einfach, da nur Objekte einer Kategorie („rot“) zur Auswahl der Antwort berücksichtigt werden müssen. In Beispiel 2 werden nun verschiedene Kategorien zu berücksichtigen sein.

Beispiel 2 Bei einer Suchaufgabe soll ein Proband entschieden, ob ein rotes Dreieck auf der Spitze steht oder die Spitze nach oben zeigt. Als Distraktoren dienen blaue Dreiecke, blaue Kreise und rote Kreise, die gleichzeitig mit dem roten Dreieck dargeboten werden.

Nun kann man wiederum das attentionale Gewicht dieser Objekte berechnen:

$w_{x}=\eta (Objekt-ist-rot)\cdot \pi _{rote-Objekte}+\eta (Objekt-ist-Dreieck)\cdot \pi _{Dreiecke}+\eta (Objekt-ist-blau)\cdot \pi _{blaue-Objekte}+\eta (Objekt-ist-Kreis)\cdot \pi _{Kreise}$

Gehen wir davon aus, dass die Relevanz der Kategorie „rot“ 0,9, für „blau“ 0,1 für „Dreieck“ 0,6 und für „Kreis“ 0,01 ist. Die sensorische Evidenz sei der Einfachheit halber wieder 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, ein Dreieck nie als Kreis etc.). Dadurch ergeben sich für die vier Objekte folgende attentionale Gewichte:

$w_{rotesDreieck}=1\cdot 0{,}9+1\cdot 0{,}6+0\cdot 0{,}1+0\cdot 0{,}01=1{,}5$
$w_{roterKreis}=1\cdot 0{,}9+0\cdot 0{,}6+0\cdot 0{,}1+1\cdot 0{,}01=0{,}91$
$w_{blauesDreieck}=0\cdot 0{,}9+1\cdot 0{,}6+1\cdot 0{,}1+0\cdot 0{,}01=0{,}7$
$w_{blauerKreis}=0\cdot 0{,}9+0\cdot 0{,}6+1\cdot 0{,}1+1\cdot 0{,}01=0{,}11$

Somit hat also das rote Dreieck das höchste Gewicht und wird mit größerer Wahrscheinlichkeit weiterverarbeitet als alle anderen im Sichtfeld befindlichen Objekte. Es steht allerdings noch keineswegs fest, welches Objekt das „Rennen“ gewinnt oder wie dieses kategorisiert wird. Dies wird im Kategorisierungsprozess ermittelt.

Kategorisierung

Im Rennen um Kategorisierung wird die Verarbeitungsgeschwindigkeit einer jeden Objektkategorisierung wie folgt berechnet: $v(x,i)=\eta (x,i)\cdot \beta _{i}\cdot {\frac {w_{x}}{\sum _{z\in S}w_{z}}}$

wobei

$v(x,i)$ die Geschwindigkeit der Kategorisierung „Objekt x ist i“ ist
- theoretisch gibt es für jede Objekt-Kategorie-Kombination eine Verarbeitungsgeschwindigkeit
- die Verarbeitungsgeschwindigkeit entspricht der Wahrscheinlichkeit, dass das Objekt x als i kategorisiert wird (und somit in das VSTM enkodiert wird)
$\eta (x,i)$ die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie i gehört
$\beta _{i}$ eine wahrnehmungsbezogene Antwortverzerrung bezogen auf die Kategorie i ist
- $0\leq \beta _{i}\geq$
- solche Kategorien, die für die Antwortgabe relevant sind, werden höher gewichtet
${\frac {w_{x}}{\sum _{z\in S}w_{z}}}$ der Anteil des Gewichts von Objekt x am Gesamtgewicht aller Objekte ist

Man beachte, dass nicht jedes Objekt eine Verarbeitungsgeschwindigkeit hat, sondern jede Objekt-Kategorisierungs-Kombination. Es gibt also eine Verarbeitungsgeschwindigkeit für die Kategorisierung „Objekt x ist a“ und für die Kategorisierung „Objekt x ist b“. Jedoch wird tatsächlich das Objekt, dessen Objekt-Kategorisierungs-Kombination das Rennen gewinnt, auch in das VSTM enkodiert.

Beispiel

Dem obigen Beispiel 1 der visuellen Suchaufgabe folgend wird nun in der Kategorisierungsphase die Verarbeitungsgeschwindigkeit betrachtet, mit der die Kategorisierungen am „Rennen“ teilnehmen (Achtung: Nicht die Objekte selbst, sondern die Objekte mit einer bestimmten Objektkategorisierung konkurrieren um einen Platz im VSTM!). Das Gesamtgewicht $\sum _{z\in S}w_{z}$ ist in unserem Beispiel $0{,}9+0{,}9=1{,}8$ Somit ergibt sich als relatives Gewicht ${\frac {w_{x}}{\sum _{z\in S}w_{z}}}$ für die beiden roten Objekte ${\frac {0{,}9}{1{,}8}}={\frac {1}{2}}$ und für die beiden blauen Objekte ${\frac {0}{1{,}8}}=0$ .

Da die Aufgabe des Probanden darin besteht, anzugeben, welche(r) Buchstabe (unter den roten Objekten) zu finden ist, kann die Antwort des Probanden, insofern er sich an die Instruktionen hält, in eine der 26 (weil 26 verschiedene Buchstaben) möglichen Antwortkategorien fallen. Hier sind also nicht mehr Kategorie „rot“ und „blau“ von Bedeutung, sondern lediglich „a“, „b“, „c“ etc. Folglich sind 26 $\beta _{i}$ -Werte, z. B. $\beta _{a}$ und $\beta _{f}$ hoch, hingegen sind die $\beta _{i}$ -Werte für Ziffern (oder vollkommen andere Kategorien wie „Blume“) sehr niedrig.

Für eine solche Kategorisierung ist außerdem wiederum die physikalische Reizqualität $\eta {(x,i)}$ entscheidend. Zu beachten ist hier, dass beispielsweise eine „2“ einem „Z“ ähneln kann und somit eine relativ hohe sensorische Evidenz für eine der Antwortkategorien, nämlich „Z“ haben kann, obwohl es sich nicht um einen Zielreiz handelt.

Berechnen wir nun einige Verarbeitungsgeschwindigkeiten aus unserem Beispiel. Dabei sei die physikalische Reizqualität wieder perfekt und $\eta (x,i)$ somit 0 oder 1. Ausnahme sei in unserem Beispiel die „2“. Für sie gelte $\eta (2,z)=0,4$ . Die perzeptuelle Entscheidungsverzerrung $\beta _{i}$ sei für Buchstaben 0,8 und für Ziffern 0,05.

Damit ergibt sich:

$v_{\text{rotes a wird als „a“ kategorisiert}}=1\cdot 0{,}8\cdot {\frac {1}{2}}=0{,}4$
$v_{\text{rotes f wird als „a“ kategorisiert}}=0\cdot 0{,}8\cdot {\frac {1}{2}}=0$
$v_{\text{rote 3 wird als „a“ kategorisiert}}=0\cdot 0{,}8\cdot {\frac {1}{2}}=0$
$v_{\text{rote 3 wird als „3“ kategorisiert}}=1\cdot 0{,}05\cdot {\frac {1}{2}}=0{,}05$
$v_{\text{rotes a wird als „3“ kategorisiert}}=0\cdot 0{,}05\cdot {\frac {1}{2}}=0$
$v_{\text{blaues a wird als „a“ kategorisiert}}=1\cdot 0{,}8\cdot 0=0$
$v_{\text{blaue 3 wird als „3“ kategorisiert}}=1\cdot 0{,}05\cdot 0=0$
$v_{\text{rote 2 wird als „2“ kategorisiert}}=1\cdot 0{,}05\cdot {\frac {1}{2}}=0{,}025$
$v_{\text{rote 2 wird als „z“ kategorisiert}}=0,4\cdot 0{,}8\cdot {\frac {1}{2}}=0{,}32$

Einzelnachweise

↑ Profil von Claus Bundesen bei Google Scholar. Abgerufen am 2. Juli 2023.
↑ ^a ^b Claus Bundesen: A theory of visual attention. In: Psychological Review. Band 97, Nr. 4, 1990, ISSN 1939-1471, S. 523–547, doi:10.1037/0033-295x.97.4.523 (apa.org [abgerufen am 6. Juni 2018]).
↑ ^a ^b Claus Bundesen, Thomas Habekost: Principles of visual attention: Linking mind and brain. Oxford University Press, Oxford 2008.
↑ Claus Bundesen, Signe Vangkilde, Anders Petersen: Recent developments in a computational theory of visual attention (TVA). In: Vision Research. Band 116, November 2015, ISSN 0042-6989, S. 210–218, doi:10.1016/j.visres.2014.11.005 (elsevier.com [abgerufen am 6. Juni 2018]).
↑ Claus Bundesen, L. F. Pedersen, A. Larsen: Measuring the efficiency of selection from briefly exposed displays: A model for partial report. In: Journal of Experimental Psychology: Human Perception and Performance. Band 10, 1984, S. 329–339.
↑ H. Shibuya, Claus Bundesen: Visual selection from multielement displays: Measuring and modeling the effects of exposure duration. , 14, 591–600. In: Journal of Experimental Psychology: Human Perception and Performance. Band 14, 1988, S. 591–600.
↑ Claus Bundesen: A computational theory of visual attention. In: Philosophical Transactions of the Royal Society: Series B. Band 353, 1998, S. 1271–1281.
↑ Gordon Logan: The CODE theory of visual attention: An integration of space-based and object-based attention. In: Psychological Review. Band 103, 1996, S. 603–649.
↑ Gordon D. Logan, Claus Bundesen: Spatial effects in the partial report paradigm: A challenge for theories of visual–spatial attention. In: D. L. Medin (Hrsg.): The psychology of learning and motivation. Band 35. Academic Press, San Diego, CA 1996, S. 243–282.
↑ Gordon D. Logan, R. D. Gordon: Executive control of visual attention in dual-task situations. In: Psychological Review. Band 108, 2001, S. 393–434.
↑ Claus Bundesen, Thomas Habekost, Søren Kyllingsbæk: A Neural Theory of Visual Attention: Bridging Cognition and Neurophysiology. In: Psychological Review. Band 112, Nr. 2, 2005, ISSN 1939-1471, S. 291–328, doi:10.1037/0033-295x.112.2.291 (apa.org [abgerufen am 6. Juni 2018]).
↑ ^a ^b ^c Thomas Habekost: Clinical TVA-based studies: a general review. In: Frontiers in Psychology. Band 6, Nr. 290, 2015.
↑ D. E. Broadbent: Perception and communication. 1958, doi:10.1037/10037-000 (apa.org).
↑ J. A. Deutsch, D. Deutsch: Attention: Some theoretical considerations. In: Psychological Review. Band 70, Nr. 1, Januar 1963, ISSN 1939-1471, S. 80–90, doi:10.1037/h0039515 (apa.org).

[1] Profil von Claus Bundesen bei Google Scholar. Abgerufen am 2. Juli 2023.

[CB1990TVA-2] Claus Bundesen: A theory of visual attention. In: Psychological Review. Band 97, Nr. 4, 1990, ISSN 1939-1471, S. 523–547, doi:10.1037/0033-295x.97.4.523 (apa.org [abgerufen am 6. Juni 2018]).

[CBTH2008-3] Claus Bundesen, Thomas Habekost: Principles of visual attention: Linking mind and brain. Oxford University Press, Oxford 2008.

[4] Claus Bundesen, Signe Vangkilde, Anders Petersen: Recent developments in a computational theory of visual attention (TVA). In: Vision Research. Band 116, November 2015, ISSN 0042-6989, S. 210–218, doi:10.1016/j.visres.2014.11.005 (elsevier.com [abgerufen am 6. Juni 2018]).

[5] Claus Bundesen, L. F. Pedersen, A. Larsen: Measuring the efficiency of selection from briefly exposed displays: A model for partial report. In: Journal of Experimental Psychology: Human Perception and Performance. Band 10, 1984, S. 329–339.

[6] H. Shibuya, Claus Bundesen: Visual selection from multielement displays: Measuring and modeling the effects of exposure duration. , 14, 591–600. In: Journal of Experimental Psychology: Human Perception and Performance. Band 14, 1988, S. 591–600.

[7] Claus Bundesen: A computational theory of visual attention. In: Philosophical Transactions of the Royal Society: Series B. Band 353, 1998, S. 1271–1281.

[8] Gordon Logan: The CODE theory of visual attention: An integration of space-based and object-based attention. In: Psychological Review. Band 103, 1996, S. 603–649.

[9] Gordon D. Logan, Claus Bundesen: Spatial effects in the partial report paradigm: A challenge for theories of visual–spatial attention. In: D. L. Medin (Hrsg.): The psychology of learning and motivation. Band 35. Academic Press, San Diego, CA 1996, S. 243–282.

[10] Gordon D. Logan, R. D. Gordon: Executive control of visual attention in dual-task situations. In: Psychological Review. Band 108, 2001, S. 393–434.

[11] Claus Bundesen, Thomas Habekost, Søren Kyllingsbæk: A Neural Theory of Visual Attention: Bridging Cognition and Neurophysiology. In: Psychological Review. Band 112, Nr. 2, 2005, ISSN 1939-1471, S. 291–328, doi:10.1037/0033-295x.112.2.291 (apa.org [abgerufen am 6. Juni 2018]).

[TH2015-12] Thomas Habekost: Clinical TVA-based studies: a general review. In: Frontiers in Psychology. Band 6, Nr. 290, 2015.

[13] D. E. Broadbent: Perception and communication. 1958, doi:10.1037/10037-000 (apa.org).

[14] J. A. Deutsch, D. Deutsch: Attention: Some theoretical considerations. In: Psychological Review. Band 70, Nr. 1, Januar 1963, ISSN 1939-1471, S. 80–90, doi:10.1037/h0039515 (apa.org).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]