Dialogakt

Ein Dialogakt, oder auch Konversationsbewegung genannt, beschreibt die Funktion einer Äußerung in einem Dialog bezüglich benachbarter Äußerungspaare zwischen zwei oder mehreren Dialogpartnern auf der pragmatischen, semantischen und syntaktischen Ebene.^[1]

Verwendung des Wortes

In der Linguistik gibt es keine eindeutige Definition für den Begriff Dialogakt, was zur Folge hat, dass ihm mehrere Bedeutungen zugeteilt werden können:^[2]

Ein Dialogakt wird als eine lockere Bezeichnung der Sprechakte im Dialogkontext bezeichnet.
Ein Dialogakt wird als Kombination von Sprechakten im Zwang von semantischen Kriterien der Äußerungen bezeichnet.
Dialogakten wird eine interne Struktur, zugehörig zu einer oder mehreren Dialog-/Kommunikationsfunktionen, zugeschrieben.

Sprechakt vs. Dialogakt

Ein Sprechakt bezieht sich auf eine einzelne Äußerung. Es ist eine zielgerichtete Absicht eines Sprechers in einem Dialog und bezeichnet eine Kommunikationseinheit, die ein oder mehrere Sprachhandlungen besitzt.^[2]

Ein Dialogakt dagegen, bezeichnet zwar auch eine Äußerung in einem Dialog, jedoch können hier im Gegensatz zum Sprechakt die vorangegangenen oder nachfolgenden Äußerungen eines Gesprächspartners mit in Betracht gezogen werden, um die Funktion der Äußerungen bezüglich der pragmatischen, semantischen und syntaktischen Bedeutungen im Dialog abzubilden. Hier steht das Verstehen des Dialogkontexts im Mittelpunkt und nicht nur das Verstehen der einzelnen Äußerungen.^[2]

Grundlagen

Die Motivation hinter der Modellierung von Dialogakten besteht darin, dass gesprochene Konversationen analysiert werden können und die einzelnen Äußerungen mit Dialogakten gekennzeichnet werden können. Dadurch können Äußerungen verstanden, interpretiert und kontextgerecht beantwortet werden. Gerade auf der pragmatischen Ebene ist dies ein großer Vorteil. Durch die Festlegung, welche auf der Intention des Sprechers beruht, und durch die Modellierung der Dialogakte kann natürliche Sprache im Dialog verstanden werden. Jedoch können sich nicht nur eine, sondern mehrere Funktionen in einer Äußerung vereinen. Dies wird als multifunktionale Äußerung bezeichnet. Deshalb ist die Zuordnung der Dialogfunktion nicht immer eindeutig!^[2]^[1]^[3]

Beispiel: Multifunktionalität der Äußerung^[1]: „Ich komme heute Abend.“

Dialogakte: Promise (Versprechen), Informative Statment (Information)

Dialogakte sind dementsprechend funktionelle Einheiten, die den kontextuellen Inhalt einer Äußerung verändern können.^[1] Zusätzlich kann mit Hilfe von Dialogaktanalyse auch ein Mensch-Maschine-Dialog vereinfacht und realisiert werden.^[2]

Dialogaktaspekte

Es gibt drei Aspekte im Dialogakt, welche die kontextuelle Bedeutung bezüglich der Äußerungen festlegen:^[1]

Äußerungsform: Legt den Kontext des Gesprochenen/Geschriebenen fest, welcher vom Dialogakt hervorgerufen wird.
Semantischer Inhalt: Der semantische Inhalt ist von besonderer Wichtigkeit für den neuen Kontext, welcher entsteht, sobald der Dialogakt vollzogen wurde. Diese entstandene Bedeutung muss nämlich nicht immer vor dem Dialogaktvollzug bestehen.
Kommunikationsfunktion/Dialogfunktion: Was Wichtigkeit besitzt, wird von der kommunikativen Funktion festgelegt.

Beispieläußerung^[1]: „Regnet es?“

Dialogfunktion: YES/NO QUESTION
Semantischer Inhalt: aktuelle Wetterlage.

$\Rightarrow$ Sprecher möchte wissen, ob es regnet.

Aufgabenorientierte vs. nicht-aufgabenorientierte Dialogakte

Es kann zwischen zwei Arten von Dialogakten unterschieden werden, dem aufgabenorientierten (task-oriented) Dialogakt und dem nicht-aufgabenorientierte (non-task-oriented) Dialogakt.

Dialogakte die aufgabenorientiert sind, beabsichtigen nur die Vervollständigung einer Aufgabe von zwei oder mehreren Gesprächspartnern. Beide versuchen, durch die Konversation einen Weg zu finden, eine bestimmte Aufgabe zu lösen oder ein bestimmtes Ziel zu erreichen, beispielsweise Orangen von A nach B zu transportieren.^[2]

Nicht-aufgabenorientierte Dialogakte werden oft als zwanglose Umgangssprache (casual conversational speech) bezeichnet. Jene bewirken ein rein informelles Gespräch zwischen den jeweiligen Gesprächspartnern, beispielsweise über Autos.^[2]

DAMSL – Dialog Act Markup in Several Layers

DAMSL ist ein Annotationsschema für Dialoge, entwickelt in der Multiparty Discourse Group im Discourse Research Initiative (DRI) beim Treffen in Pennsylvania, 1996. Dieses Annotationsschema markiert Äußerungscharakteristika, welche die Rolle der Äußerungen und ihre Beziehungen untereinander beschreiben. Es wurde entwickelt, um aufgabenorientierte Dialoge eines Sprechers und eines Zuhörers zu analysieren. Der Sprecher repräsentiert denjenigen, der den Dialog und die jeweiligen Äußerungen initiiert, während der Hörer denjenigen darstellt, der auf diese Äußerungen reagiert.^[4]^[5]

Äußerungen repräsentieren die Intention des Sprechers und stellen somit einen bestimmten Inhalt dar. Da die Inhalte und Intentionen von unterschiedlicher Art sein können, besitzt eine Äußerung verschiedene Ebenen, auf denen sie detaillierter beschrieben werden kann. Diese Ebenen sind in verschiedene Hauptkategorien unterteilt, wobei nicht jede Äußerung alle Ebenen bedienen muss:^[6]

Kommunikationsstatus: begutachtet, ob eine Äußerung interpretierbar ist oder erfolgreich beendet wurde. Sprecher können zum Beispiel Fehler in ihrer Aussage machen, den Inhalt währenddessen ändern, die Äußerung abbrechen oder zu sich selbst sprechen.
Informationsebene: repräsentiert den semantischen Inhalt einer Äußerung. Diese können zum Beispiel ein Aktionsanfrage oder Aktionsablauffolge, Aufmerksamkeit, Unverständnis oder Verständnis einer Aussage, Gesprächseröffnung, Gesprächsschließung oder auch Rückfragen an den Sprecher beinhalten.
Forward-Looking-Function: gibt Auskunft darüber, wie die Äußerung die Vorstellungen und Aktionen des Gegenübers beeinflussen.
Backward-Looking-Function: beschreibt, inwiefern die Aussage zu den vorherigen passt.

Äußerungen besitzen bestimmte Eigenschaften, die sich auf die Struktur und den Inhalt der jeweiligen Äußerung beziehen und somit Rückschlüsse über ihre Funktion geben können. Meistens besitzen die Äußerungen komplexe Funktionen, die sich durch den Verlauf des Dialoges und dem Zweck, der sich hinter jeder Äußerung verbirgt, charakterisieren lässt.^[6]

Forward-Looking-Function

Diese Funktion beschreibt die Auswirkung einer Äußerung auf den weiterführenden Dialog. Es ist meistens sehr schwer zu Interpretieren, welchen Effekt eine Äußerung auf den Zuhörer haben soll bzw. kann. Zu diesem Zweck wird der weitere Dialogverlauf betrachtet, um die Funktion dieser Äußerung festzulegen. Die Äußerungen können zum Beispiel einfache Funktionen darstellen, wie informative Aussagen, sofortige oder in naher Zukunft liegende Aktionsaufforderungen charakterisieren.^[4]^[5]

Backward-Looking-Function

Diese Funktion beschreibt, wie der Gesprächspartner auf die vorherige Äußerung eines Sprechers reagiert. In diesem Fall wird der vorherige Dialogakt bzw. die vorherige Äußerung betrachtet und die Antwort auf diese Äußerung wird dann rückwirkend charakterisiert. So kann der Hörer eine vorherige Äußerung akzeptieren, ablehnen, beantworten oder auch korrigieren. Die Äußerung kann also beispielsweise die Funktionen des Agreements (Einigung), Antwortens, verstanden oder missverstanden Habens darstellen.^[4]^[5]

Wie anfänglich beschrieben kann eine Äußerung auch mehrere Dialogakte gleichzeitig in sich vereinen. Auch deshalb ist es nicht immer leicht oder eindeutig, einer Äußerung einen bestimmten Dialogakt zuzuweisen.

DAMSL Annotationsbeispiele

A und B innerhalb der Beispiele repräsentieren Sprecher von einer Äußerung, wobei B mögliche Antwortäußerungen zu dem von A gegebenen Kontext gibt.

Forward-Looking-Funktion Beispiele:

Info-Request: 				A: Sag mir wie spät es ist.
Action-Directives:  			A: Mach die Tür zu.
Inuencing-Addressee-Future-Action:  	A: Was hältst du davon zu Joey’s Pizza zu gehen?

Beispiele für verschiedene Äußerungen in einem bestimmten Kontext:

Context: 	A: Möchten sie das Buch und den Review haben?
Accept		B: Ja, gerne.
Accept-Part 	B: Ich hätte gerne das Buch.
Maybe          B: Ich muss erst darüber nachdenken.
Reject-Part 	B: Ich brauche den Review nicht.
Reject         B: Nein, danke.
Hold           B: Muss ich dafür zahlen?

Beispiele für Äußerungsmerkmale:

Task-Info-Request: 		A: Welche Zeiten sind verfügbar?
Communication-Info-Request:	A: Was hast du gesagt?

Quelle:^[4]

Cue-Modell

Das Cue-Modell ist ein technischer Ansatz, um Dialogaktdetektion und Interpretation zu modellieren. Die Idee des Modells ist, dass eine Äußerung spezifische Oberflächeneigenschaften besitzt, welche mit Hilfe unterschiedlicher Cues repräsentiert werden. Ein Cue ist ein einfacher Indikator, welcher jeweils eine der folgenden Ebenen repräsentiert:^[2]

Lexikalische und syntaktische Cues: Basieren auf konversationsanalytischen Traditionen (z. B. W-Wörter und Hilfsverben in Fragen)
Prosodische Cues: Sprechpausen, Tonhöhe (Anstieg zum Äußerungsende → Frage), Betonung …
Diskurs Cues: Kontext bezogen.

Es wird vermutet, dass Hörer bestimmte Cues verwendet, um zu entscheiden, wie eine Äußerung des Sprechers interpretiert werden kann.^[6] Diese Cues repräsentieren die Eigenschaften, welche zu dem jeweiligen Dialogakt gehören. Eine Äußerung kann demnach anhand verschiedener Kombinationen bestimmter Cues interpretiert werden. Sie werden dabei zu spezifischen Dialogakten mit einer bestimmten Wahrscheinlichkeit assoziiert. Die Wissensquelle, welche eine Schätzung über den Dialogakt macht, basiert nach dem Cue-Modell auf der Konversationsstruktur, der Prosodie und der lexikalischen und syntaktischen Oberflächenstruktur einer Äußerung. Die Wahrscheinlichkeiten können dann anhand ihres Vorkommens in einem Korpus berechnet und geschätzt werden.^[2]

Dialogakte einer bestimmten Äußerung können mit Hilfe verschiedener maschineller Lernmethoden bestimmt werden. Sie können beispielsweise anhand Hidden Markov Modellen, neuronalen Netzen oder Bayes-Klassifikatoren gelernt werden. Die Vorgehensweise einer Klassifikation von Dialogakten ist wie folgt:^[6]

Erst werden die verschiedenen Cue-Kombinationen für die jeweiligen Dialogakte gelernt.
Das System bekommt nun eine Äußerung als Input und gibt anhand des gelernten Modells den maximal wahrscheinlichsten Dialogakt zurück.

Oft werden sogenannte N-Gramme-Modelle (uni-, bi-, tri-Gramme) gelernt. Ein Beispiel eines N-Gramm (bi-Gramm) für den Dialogakt Reformulierung auf lexikalischer Ebene sieht wie folgt aus:^[2]

Beispieläußerung: „Du meinst“

W(„meinst“ | „Du“), Du ist in diesem Fall die Historie von meinst und W repräsentiert die Wahrscheinlichkeit des Vorkommens von „meinst“ gegeben „meinst“.

Die einzelnen Wahrscheinlichkeiten der jeweiligen Cues werden miteinander verrechnet und somit die gesamte maximale Wahrscheinlichkeit der Cue-Kombinationen geschätzt und damit der wahrscheinlichste Dialogakt bestimmt. Um nun einen Dialogakt zu bestimmten, der auf einen anderen Dialogakt in einem Dialog folgt, wird mittels N-Grammen über die Dialogakte, der maximal wahrscheinlichste Dialogakt, welcher auf einen oder mehreren vorangegangenen Dialogakten folgt, bestimmt.^[6]^[2]

Einzelnachweise

↑ ^a ^b ^c ^d ^e ^f Harry Bunt: "Context and Dialogue Control", 1994
↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Dan Jurafsky: "Pragmatics and Computational Linguistics", 2005
↑ Alexander Clark and Andrei Popescu-Belis: "Multi-level Dialogue Act Tags", 2004
↑ ^a ^b ^c ^d Mark G. Core and James F. Allen: "Coding Dialogs with the DAMSL Annotation Scheme ", 1997
↑ ^a ^b ^c James Allen and Mark Core. Webseite für "Draft of DAMSL: Dialog Act Markup in Several Layers", 1997
↑ ^a ^b ^c ^d ^e Nick Webb: "Cue-BasedDialogue Act", 2010

[bunt-1] ↑ ^a ^b ^c ^d ^e ^f Harry Bunt: "Context and Dialogue Control", 1994

[jurafsky-2] ↑ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k Dan Jurafsky: "Pragmatics and Computational Linguistics", 2005

[clark-3] Alexander Clark and Andrei Popescu-Belis: "Multi-level Dialogue Act Tags", 2004

[core-4] Mark G. Core and James F. Allen: "Coding Dialogs with the DAMSL Annotation Scheme ", 1997

[coreWEB-5] James Allen and Mark Core. Webseite für "Draft of DAMSL: Dialog Act Markup in Several Layers", 1997

[webb-6] Nick Webb: "Cue-BasedDialogue Act", 2010

[1]

[2]

[3]

[4]

[5]

[6]