Das DGS-Korpus ist ein linguistisches Korpus der Deutschen Gebärdensprache, das von 2009 bis 2023 durch das DGS-Korpus-Projekt am Institut für deutsche Gebärdensprache und Kommunikation Gehörloser (IDGS) der Universität Hamburg erstellt wird.
Mit über XXXX annotierten Tokens (Stand XX.XX.XXXX) aus gebärdeten Unterhaltungen zu vielfältigen Themen zählt das DGS-Korpus zu den größten gebärdensprachlichen Korpora. Das Öffentliche DGS-Korpus, eine Teilmenge des DGS-Korpus, ist das größte, online veröffentlichte und frei zugängliche annotierte Gebärdensprach-Korpus.
Das DGS-Korpus-Projekt
BearbeitenDas DGS-Korpus ist ein linguistisches Korpus, das Unterhaltungen und Erzählungen in Deutscher Gebärdensprache (DGS) enthält. Das DGS-Korpus wird im Rahmen des DGS-Korpus-Projekts (Prillwitz, 2008), ein Langzeitprojekt (2009-2023) der Akademie der Wissenschaften in Hamburg, an der Universität Hamburg erstellt.
Das Projekt verfolgt drei Ziele:
- ein Referenzkorpus der DGS (das DGS-Korpus) zu erstellen,
- eine annotierte Teilmenge aus dem DGS-Korpus von ca. 50 Stunden (das Öffentliche DGS-Korpus) der Öffentlichkeit frei zur Verfügung zu stellen,
- ein auf den Daten des DGS-Korpus basierendes Wörterbuch (das Digitale Wörterbuch der Deutschen Gebärdensprache, DW-DGS) zu publizieren.
Das Projekt ist maßgeblich an der Etablierung der Korpuslinguistik für Gebärdensprachen beteiligt und hatte von Beginn an den Anspruch, einen Teil der Daten sowohl für die DGS-Sprachgemeinschaft als auch die internationale Forschungsgemeinschaft zur Verfügung zu stellen. Die umfangreiche Erhebung bietet die Chance, die regionale Vielfalt der DGS in Deutschland zu erfassen.
Datenerhebung
BearbeitenDie Datenerhebung, die von 2010 - 2012 an 12 verschiedenen Orten durchgeführt wurde und 13 Erhebungsregionen umfasst, wurde von lokalen Kontaktpersonen aus den jeweiligen regionalen Gehörlosengemeinschaften unterstützt. Die Informant*innen wurden paarweise bei 20 verschiedenen Erhebungsaufgaben (Nishio et al., 2010) gefilmt. Der Schwerpunkt lag auf möglichst natürlichsprachlichen Unterhaltungen, die inhaltlichen Themen sollten für die DGS-Sprachgemeinschaft von Interesse sein, beispielsweise die Schulzeit tauber Personen, Erfahrungen, die in Zusammenhang mit der Taubheit stehen, gehörlosenspezifische Großveranstaltungen wie z.B. die Deaflympics oder wie die Informant*innen besondere historische Ereignisse, wie beispielsweise den Mauerfall wahrgenommen haben. Die 330 Informant*innen des DGS-Korpus sind nach Geschlecht, Altersgruppen und Herkunftsregionen ausbalanciert.
Für die Auswahl der Informant*innen war der Hörstatus kein Auswahlkriterium, lediglich die tägliche Nutzung von DGS als Hauptkommunikationsmittel war eine Voraussetzung. Bevorzugt wurden Informant*innen mit dem frühestmöglichen DGS-Erwerbsalter ausgewählt. Ebenfalls kontrolliert wurde der Beruf der Informant*innen: nur 20% der Informant*innen üben einen der folgenden Berufe aus: DGS-Lehrer, Pädagoge, Linguist und Gebärdensprachkünstler, z.B. Schauspieler oder Dichter.
Für die Filmaufnahmen wurde an 12 Orten in Deutschland ein mobiles Studio mit acht Kameras aufgebaut (Hanke et al., 2010), in dem ausschließlich DGS als Kommunikationsmittel genutzt wurde.
Die Erhebungsaufgaben und -materialien decken ein breites Spektrum verschiedener Diskursformate ab wie z.B. freie Erzählungen, Nacherzählungen, Diskussionen zu kontroversen Themen, Ablaufbeschreibungen und Berichte sowie Stimuli zu bestimmten sprachlichen Phänomenen wie z.B. Verneinung und einzelne Begriffe. Um sprachübergreifende (cross-linguistische) Untersuchungen zu ermöglichen, wurden weiterhin Stimuli, die in der empirischen Laut- und Gebärdensprachforschung bereits etabliert sind wie z.B. die "Birnengeschichte" (Chafe, 1980) oder ein Cartoon von Sylvester und Tweety (Warner Brothers, 1950), berücksichtigt. Als Stimuli für die Erhebungsaufgaben wurden „Bilder, Bildergeschichten, nonverbale Filmausschnitte (z.B. Cartoons und realistische Filmausschnitte) und gebärdete Filme“ (Nishio, 2010) verwendet.
Zugang
BearbeitenDas DGS-Korpus Für das DGS-Korpus wurde insgesamt über 1150 Stunden Filmmaterial aufgenommen, davon bilden etwa 560 Stunden Dialoge und Erzählungen in natürlichem DGS das DGS-Korpus.Die Daten werden mit iLex transkribiert, das Annotationswerkzeug und lexikalische Datenbank zugleich ist und als Multi-User-Anwendung zur Annotation und Lemmatisierung von Gebärdensprachdaten konzipiert wurde (Hanke, 2002; Hanke und Storz, 2008). In iLex können Annotationen erstellt, die Daten mittels SQL-Abfragen durchsucht und die Ergebnisse in Form von Grafiken oder Karten visualisiert werden.
Das Öffentliche Korpus
BearbeitenDas Öffentliche DGS-Korpus ist eine ca. 50-stündige, annotierte Teilmenge des DGS-Korpus. Bei der Auswahl der Daten für das Öffentliche DGS-Korpus wurden besonders solche Gespräche ausgewählt, die thematisch von Interesse für die Sprachgemeinschaft sind. Außerdem sind Erhebungsformate im Öffentlichen DGS-Korpus enthalten, die sich für cross-linguistische Vergleichsstudien eignen. Somit ist das Öffentliche DGS-Korpus sowohl eine Forschungsressource als auch ein Archiv der Sprache, Geschichte und Kultur von tauben Personen in Deutschland (Blanck, 2010).
Das Öffentliche DGS-Korpus ist über zwei verschiedene Webseiten frei und ohne Anmeldung zugänglich. Die zwei Portale richten sich an unterschiedliche Bedürfnisse verschiedener Gruppen von Nutzer*innen (Jahn et al., 2018).
MEINE DGS
BearbeitenAuf der Seite MEINE DGS (meine-dgs.de) können Nutzer*innen über 47 Stunden gebärdeter Gespräche oder Erzählungen mit Untertiteln (Übersetzungen ins Deutsche) und 2,4 Stunden Witze (ohne Übersetzung) ansehen. Neben der Hauptseite mit den Videos enthält die Website Informationen über das Projekt, Lizenzbedingungen und eine Seite, auf der die Videos nach Region, Altersgruppen, Dialogformaten und Hauptthemen gefiltert werden können.
MEINE DGS bietet einen niederschwelligen Zugang zu den Daten für Nutzer*innen mit und ohne wissenschaftlichen Hintergrund. Insbesondere richtet sich die Webseite MEINE DGS als Gemeinschaftsportal an die Gehörlosen- und DGS-Sprachgemeinschaft.
MEINE DGS - annotiert
BearbeitenMEINE DGS – annotiert (ling.meine-dgs.de) enthält zusätzlich zu den Aufzeichnungen von MEINE DGS weitere 1,7 Stunden Datenmaterial, insgesamt also etwas über 50 Stunden. Die Videos werden mit zeitalignierten Online-Transkripten bereitgestellt, welche Glossen, Mundbilder/Mundgesten und Übersetzungen enthalten. MEINE DGS – annotiert bietet neben der Möglichkeit, Videos und Transkripte direkt auf der Website einzusehen, vielfältige Download-Optionen. Weiterhin sind auf MEINE DGS – annotiert noch eine „Types“-Liste mit allen Types, die für die Lemmatisierung der Tokens im Öffentlichen DGS-Korpus verwendet werden, sowie die Annotationskonventionen und Nutzungsbedingungen aufrufbar. Da MEINE DGS – annotiert sich an ein internationales Publikum richtet, steht die Website auf Deutsch und Englisch zur Verfügung.
Nutzungsbestimmungen
BearbeitenDie Nutzungsbestimmungen des Öffentlichen DGS-Korpus erlauben eine Nutzung der Daten zu wissenschaftlichen, nicht-kommerziellen Zwecken. Um zusätzliche Daten aus dem DGS-Korpus nutzen zu können, muss ein Vertrag über gesonderte Nutzungsrechte mit dem Projekt geschlossen werden.
Das DW-DGS Das Digitale Wörterbuch der Deutschen Gebärdensprache (DW-DGS) ist das erste korpusbasierte Wörterbuch der Deutschen Gebärdensprache. Für Informationen zur Entwicklung des Wörterbuchs siehe Langer et al. (2018) und Wähl et al (). Zur Diskussion der Verknüpfung von Korpus und Wörterbuch siehe Müller et al. (2020). Das DW-DGS wird 2023 veröffentlicht. Vorabeinträge können eingesehen werden unter dw-dgs.de.
Literatur
Bearbeiten- Hanke, Thomas / Schulder, Marc / Konrad, Reiner / Jahn, Elena (2020): "Extending the Public DGS Corpus in Size and Depth". In Efthimiou, Eleni et al. (eds.): Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages. 12th International Conference on Language Resources and Evaluation (LREC 2020), Marseille, France, 2020. Paris, France: European Language Resources Association (ELRA), S. 75-82.
- Müller, Anke / Hanke, Thomas / Konrad, Reiner / Langer, Gabriele / Wähl, Sabrina (2020): "From Dictionary to Corpus and Back Again – Linking Heterogeneous Language Resources for DGS". In Efthimiou, Eleni et al. (eds.): Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages. 12th International Conference on Language Resources and Evaluation (LREC 2020), Marseille, France, 2020. Paris, France: European Language Resources Association (ELRA), S. 157-164.
- Jahn, Elena / Konrad, Reiner / Langer, Gabriele / Wagner, Sven / Hanke, Thomas (2018): “Publishing DGS Corpus Data: Different Formats for Different Needs”. In: Bono, Mayumi et al. (eds.): Workshop Proceedings. 8th Workshop on the Representation and Processing of Sign Languages: Involving the Language Community. Language Resources and Evaluation Conference (LREC), Miyazaki, Japan, 12 May 2018. ELRA. S. 83-90.
- Blanck, Dolly / Hofmann, Ilona / Jeziorski, Olga / König, Susanne / Langer, Gabriele / Rathmann, Christian (2010). "Uses of the DGS Corpus from a Deaf Community Perspective". Poster presented at the 4th SLCN-Workshop (Exploitation) in Berlin, Germany Dec 3.-4., 2010.
- Hanke, Thomas / Storz, Jakob / Wagner, Sven (2010). „iLex: Handling Multi-Camera Recordings“. In: Dreuw, Philippe et al. (eds.): LREC 2010. 7th International Conference on Language Resources and Evaluation. Workshop Proceedings. W13. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. May 22/23 2010. Valetta – Malta. Paris: ELRA. S. 110-111.
- Nishio, Rie / Hong, Sung-Eun / König, Susanne / Konrad, Reiner / Langer, Gabriele / Hanke, Thomas / Rathmann, Christian (2010): "Elicitation methods in the DGS (German Sign Language) Corpus Project". In: Workshop Proceedings. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. Language Resources and Evaluation Conference (LREC), Valetta, Malta, May 22-23 2010. ELRA. S. 178-185.
- Prillwitz, Siegmund / Hanke, Thomas / König, Susanne / Konrad, Reiner / Langer, Gabriele / Schwarz, Arvid (2008): „DGS Corpus Project – Development of a Corpus Based Electronic Dictionary German Sign Language / German“. In: Crasborn, Onno et al. (eds.): LREC 2008. 6th International Conference on Language Resources and Evaluation. Workshop Proceedings. W25. 3rd Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. June 1, 2008. Marrakech – Morocco. Paris: ELRA. S. 159-164.
Weblinks
Bearbeiten- https://www.sign-lang.uni-hamburg.de/dgs-korpus/index.php/dgs-korpus.html
- www.Ling.meine-dgs.de
- www.Meine-dgs.de
- www.Dw-dgs.de
- ILex? : https://www.sign-lang.uni-hamburg.de/ilex/