DGS-Korpus

linguistisches Video-Korpus der Deutschen Gebärdensprache

Das DGS-Korpus ist ein linguistisches Video-Korpus der Deutschen Gebärdensprache (DGS), das von 2009 bis 2027[1][2] durch das DGS-Korpus-Projekt am Institut für Deutsche Gebärdensprache und Kommunikation Gehörloser (IDGS) der Universität Hamburg erstellt wird.

Mit über 560 Stunden Filmmaterial und 634.497 Tokens (Stand 1. Oktober 2020) aus gebärdeten Unterhaltungen zu vielfältigen Themen zählt das DGS-Korpus zu den größten gebärdensprachlichen Korpora. Das Öffentliche DGS-Korpus, eine Teilmenge des DGS-Korpus, ist das größte online veröffentlichte und frei zugängliche annotierte Gebärdensprach-Korpus.

Das DGS-Korpus-Projekt

Bearbeiten

Das DGS-Korpus ist ein linguistisches Korpus, das gefilmte Unterhaltungen und Erzählungen in Deutscher Gebärdensprache (DGS) enthält. Das DGS-Korpus wird im Rahmen des DGS-Korpus-Projekts, einem Langzeitprojekt (2009–2027) der Akademie der Wissenschaften in Hamburg, an der Universität Hamburg erstellt.[2][3] Es wird durch das überregionale Akademienprogramm gefördert, das von Bund und Ländern finanziert wird. Das Projekt-Team setzt sich aus tauben, schwerhörigen und hörenden Mitarbeitenden zusammen, und wird durch taube und hörende Studierende, sowie eine externe Gruppe tauber Experten unterstützt.

Das Projekt verfolgt drei Ziele:

  • ein Referenzkorpus der DGS (das DGS-Korpus) zu erstellen,
  • der Öffentlichkeit eine annotierte Teilmenge aus dem DGS-Korpus von etwa 50 Stunden (das Öffentliche DGS-Korpus) frei zur Verfügung zu stellen,
  • ein auf den Daten des DGS-Korpus basierendes Wörterbuch (das Digitale Wörterbuch der Deutschen Gebärdensprache, DW-DGS) zu publizieren.

Das Projekt ist maßgeblich an der Etablierung der Korpuslinguistik für Gebärdensprachen beteiligt und stellt einen Teil der Daten sowohl für die DGS-Sprachgemeinschaft als auch die internationale Forschungsgemeinschaft zur Verfügung.

Datenerhebung

Bearbeiten

Die erste Datenerhebung wurde von 2010 bis 2012 durchgeführt. Für die Filmaufnahmen wurde an zwölf Orten in Deutschland ein mobiles Studio mit acht Kameras aufgebaut.[4] Das DGS-Korpus-Team wurde von lokalen Kontaktpersonen aus den jeweiligen regionalen Gehörlosengemeinschaften unterstützt, die während der Aufnahmen auch als Moderatoren fungierten. Im Studio wurde ausschließlich DGS als Kommunikationsmittel genutzt. Es wurden 330 Teilnehmende gefilmt. Dabei sind Geschlecht, vier Altersgruppen und 13 Herkunftsregionen im DGS-Korpus ausbalanciert. Eine zweite Datenerhebung mit weiteren 46 Personen ist für den Zeitraum 2024 bis 2025 geplant.[1]

Die sich gegenübersitzenden Informanten wurden paarweise bei 20 verschiedenen Erhebungsaufgaben gefilmt. Dabei lag der Schwerpunkt auf möglichst natürlichsprachlichen Unterhaltungen. Die inhaltlichen Themen sollten für die DGS-Sprachgemeinschaft von Interesse sein und somit die Gehörlosenkultur abbilden. Es wurden unter anderem die Schulzeit tauber Personen, Erfahrungen im Zusammenhang mit der Taubheit und gehörlosenspezifische Großveranstaltungen wie z. B. die Deaflympics thematisiert. Ebenfalls im DGS-Korpus enthalten sind Erzählungen darüber, wie die Informanten besondere historische Ereignisse, beispielsweise den Mauerfall, wahrgenommen haben.[5][6][7]

Die Erhebungsaufgaben decken ein breites Spektrum verschiedener Diskursformate ab wie z. B. freie Erzählungen, Nacherzählungen, Diskussionen zu kontroversen Themen, Ablaufbeschreibungen und Berichte. Als Stimuli für die Erhebungsaufgaben wurden Bilder, Bildergeschichten, Filmausschnitte ohne verbale Äußerungen und gebärdete Filme verwendet.[6] Einige Stimuli wurden speziell ausgewählt, um bestimmte sprachliche Phänomene wie z. B. Verneinung und einzelne Begriffe hervorzurufen. Um sprachübergreifende (crosslinguistische) Untersuchungen zu ermöglichen, wurden weiterhin Materialien berücksichtigt, die in der empirischen Laut- und Gebärdensprachforschung bereits etabliert sind, wie z. B. die „Birnengeschichte“ (Pear Story[8]) oder der "Sylvester und Tweety"-Cartoon Verkleidungskünstler.

Durch die umfangreiche Erhebung ist im DGS-Korpus die regionale Vielfalt der DGS in Deutschland zum Zeitpunkt der Erhebung abgebildet, zugleich ist das DGS-Korpus auch ein Archiv der DGS.

Das DGS-Korpus

Bearbeiten

Für das DGS-Korpus wurden bisher insgesamt über 1150 Stunden Filmmaterial aufgenommen (inkludiert das Lesen und Zustimmen zur Einverständniserklärung, Aufgabenerläuterungen und Pausen), davon bilden etwa 560 Stunden Dialoge und Erzählungen in natürlichem DGS das DGS-Korpus.[9]

Die Daten werden mit iLex[10] transkribiert, das Annotationswerkzeug und lexikalische Datenbank zugleich ist und als Multi-User-Anwendung zur Annotation und Lemmatisierung von Gebärdensprachdaten konzipiert wurde.[11][12] In iLex können Benutzer Annotationen erstellen, die Daten mittels SQL-Abfragen durchsuchen und die Ergebnisse in Form von Grafiken oder Karten visualisieren.

Das Öffentliche Korpus

Bearbeiten

Das Öffentliche DGS-Korpus ist eine etwa 50-stündige, annotierte Teilmenge des DGS-Korpus. Aus dem DGS-Korpus sind besonders solche Aufnahmen für das Öffentliche DGS-Korpus ausgewählt worden, die thematisch für die Sprachgemeinschaft von Interesse sind. Außerdem sind Erhebungsformate im Öffentlichen DGS-Korpus enthalten, die sich für sprachvergleichende Studien eignen. Somit ist das Öffentliche DGS-Korpus sowohl eine Forschungsressource als auch ein Archiv der Sprache, Geschichte und Kultur von tauben Personen in Deutschland.[13]

Das Öffentliche DGS-Korpus ist über zwei verschiedene Webseiten frei und ohne Anmeldung zugänglich. Die zwei Portale (MEINE DGS und MEINE DGS – annotiert) richten sich an unterschiedliche Bedürfnisse verschiedener Gruppen von Nutzern.[14]

MEINE DGS

Bearbeiten

Auf der Seite MEINE DGS können Nutzer 47 Stunden gebärdeter Gespräche oder Erzählungen mit Untertiteln (Übersetzungen ins Deutsche) und 2,4 Stunden Witze (ohne Übersetzung) ansehen. Neben der Hauptseite mit den Videos können auf der Website Informationen über das Projekt eingesehen werden und Videos nach Region, Altersgruppen, Dialogformaten und Hauptthemen gefiltert werden. Die Seite MEINE DGS bietet einen niedrigschwelligen Zugang für Nutzer mit und ohne wissenschaftlichem Hintergrund und richtet sich als Gemeinschaftsportal an die Gehörlosen- und DGS-Sprachgemeinschaft.

MEINE DGS – annotiert

Bearbeiten

MEINE DGS – annotiert enthält zusätzlich zu den Aufzeichnungen von MEINE DGS weitere 1,7 Stunden Datenmaterial, insgesamt also etwa 50 Stunden. Die Videos werden mit zeitalignierten Online-Transkripten bereitgestellt, die Glossen, Mundbilder/Mundgesten und Übersetzungen enthalten. Videos und Transkripte können entweder direkt auf der Website eingesehen werden oder über mehrere Download-Optionen auch lokal gespeichert werden.

Weiterhin stehen auf der Seite zur Verfügung:

Da MEINE DGS – annotiert sich an ein internationales Publikum richtet, steht die Website auf Deutsch und auf Englisch zur Verfügung.

Nutzungsbestimmungen

Bearbeiten

Die Nutzungsbestimmungen des Öffentlichen DGS-Korpus erlauben eine Nutzung der Daten zu nicht-kommerziellen Zwecken, allerdings beschränkt auf bestimmte Anwendungskontexte. Daten auf MEINE DGS sind zur privaten Nutzung freigegeben, Downloads sind hier nur zu Unterrichtszwecken erlaubt.[15] Daten von MEINE DGS – annotiert dürfen für Zwecke der sprachwissenschaftlichen Forschung verwendet werden.[16] Für andere Zwecke oder um zusätzliche Daten aus dem DGS-Korpus nutzen zu können, muss ein Vertrag über gesonderte Nutzungsrechte mit dem DGS-Korpus-Projekt geschlossen werden.

Das Digitale Wörterbuch der Deutschen Gebärdensprache (DW-DGS) ist das erste korpusbasierte allgemeine Wörterbuch der Deutschen Gebärdensprache.[17] Es wurde auf Grundlage der Daten aus dem DGS-Korpus erstellt, sowie im kleineren Maße durch Erhebungen mit den Tools DGS-Feedback[18] und SignHunter[19]. Das DW-DGS wird regelmäßig aktualisiert.

Bearbeiten

Einzelnachweise

Bearbeiten
  1. a b Reiner Konrad, Thomas Hanke, Amy Isard, Marc Schulder, Lutz König, Julian Bleicken, Oliver Böse: Corpus à la carte – Improving Access to the Public DGS Corpus. In: Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Johanna Mesch, Marc Schulder (Hrsg.): Proceedings of the LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources. ELRA Language Resources Association (ELRA) and the International Committee on Computational Linguistics (ICCL), Torino, Italy 2024, ISBN 978-2-493-81430-2, S. 390–399 (uni-hamburg.de).
  2. a b Entwicklung eines korpusbasierten elektronischen Wörterbuchs Deutsche Gebärdensprache (DGS) - Deutsch. In: Akademie der Wissenschaften in Hamburg. Abgerufen am 21. Oktober 2024.
  3. Siegmund Prillwitz, Thomas Hanke, Susanne König, Reiner Konrad, Gabriele Langer, Arvid Schwarz: DGS Corpus Project – Development of a Corpus Based Electronic Dictionary German Sign Language / German. In: Onno Crasborn, Eleni Efthimiou, Thomas Hanke, Ernst D. Thoutenhoofd, Inge Zwitserlood (Hrsg.): Proceedings of the LREC2008 3rd Workshop on the Representation and Processing of Sign Languages: Construction and Exploitation of Sign Language Corpora. European Language Resources Association (ELRA), Marrakech, Morocco 1. Juni 2008, S. 159–164 (englisch, uni-hamburg.de).
  4. Thomas Hanke, Lutz König, Sven Wagner, Silke Matthes: DGS Corpus & Dicta-Sign: The Hamburg Studio Setup. In: Philippe Dreuw, Eleni Efthimiou, Thomas Hanke, Trevor Johnston, Gregorio Martínez Ruiz, Adam Schembri (Hrsg.): Proceedings of the LREC2010 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. European Language Resources Association (ELRA), Valletta, Malta 22. Mai 2010, S. 106–109 (uni-hamburg.de).
  5. Sung-Eun Hong, Thomas Hanke, Susanne König, Reiner Konrad, Gabriele Langer, Christian Rathmann: Elicitation materials and their use in sign language linguistics. In: Sign Language Corpora: Linguistic Issues Workshop 2009. London, United Kingdom 24. Juli 2009, doi:10.25592/uhhfdm.1883 (englisch, uni-hamburg.de [PDF]).
  6. a b Rie Nishio, Sung-Eun Hong, Susanne König, Reiner Konrad, Gabriele Langer, Thomas Hanke, Christian Rathmann: Elicitation methods in the DGS (German Sign Language) Corpus Project. In: Philippe Dreuw, Eleni Efthimiou, Thomas Hanke, Trevor Johnston, Gregorio Martínez Ruiz, Adam Schembri (Hrsg.): Proceedings of the LREC2010 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. European Language Resources Association (ELRA), Valletta, Malta 22. Mai 2010, S. 178–185 (englisch, uni-hamburg.de).
  7. Thomas Hanke, Sung-Eun Hong, Susanne König, Gabriele Langer, Rie Nishio, Christian Rathmann: Designing Elicitation Stimuli and Tasks for the DGS Corpus Project. In: 10th Conference of Theoretical Issues in Sign Language Research. 30. September 2010, doi:10.25592/uhhfdm.1889 (englisch, uni-hamburg.de [PDF]).
  8. Wallace L. Chafe (Hrsg.): The Pear Stories (= Advances in discourse processes. Band 3). Ablex Publishing Corporation, Norwood, New Jersey, USA 1980, ISBN 0-89391-032-5 (englisch).
  9. Thomas Hanke, Marc Schulder, Reiner Konrad, Elena Jahn: Extending the Public DGS Corpus in Size and Depth. In: Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Jette Kristoffersen, and Johanna Mesch (Hrsg.): Proceedings of the LREC2020 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives. European Language Resources Association (ELRA), Marseille, France 2020, ISBN 979-1-09554654-2, S. 75–82 (uni-hamburg.de).
  10. Thomas Hanke: iLex - A Tool for Sign Language Lexicography and Corpus Analysis. In: Universität Hamburg. Abgerufen am 21. Oktober 2024 (englisch).
  11. Thomas Hanke: iLex - A Tool for Sign Language Lexicography and Corpus Analysis. In: Manuel González Rodríguez, Carmen Paz Suarez Araujo (Hrsg.): Proceedings of the Third International Conference on Language Resources and Evaluation (LREC'02). European Language Resources Association (ELRA), Las Palmas, Canary Islands, Spain 27. Mai 2002, S. 923–926 (englisch, aclanthology.org).
  12. Thomas Hanke, Jakob Storz, Sven Wagner: iLex: Handling Multi-Camera Recordings. In: Philippe Dreuw, Eleni Efthimiou, Thomas Hanke, Trevor Johnston, Gregorio Martínez Ruiz, Adam Schembri (Hrsg.): Proceedings of the LREC2010 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. European Language Resources Association (ELRA), Valletta, Malta 22. Mai 2010, S. 110–111 (englisch, uni-hamburg.de).
  13. Dolly Blanck, Ilona Hofmann, Olga Jeziorski, Susanne König, Gabriele Langer, Christian Rathmann: Nutzungsmöglichkeiten des DGS-Korpus aus der Perspektive der Gehörlosengemeinschaft. In: 4th Workshop of the Sign Language Corpus Network. Berlin, Deutschland 4. Dezember 2010, doi:10.25592/uhhfdm.8261 (uni-hamburg.de [PDF] englisch: Uses of the DGS Corpus from a Deaf Community Perspective.).
  14. Elena Jahn, Reiner Konrad, Gabriele Langer, Sven Wagner, Thomas Hanke: Publishing DGS Corpus Data: Different Formats for Different Needs. In: Mayumi Bono, Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Jette Kristoffersen, Johanna Mesch, Yutaka Osugi (Hrsg.): Proceedings of the LREC2018 8th Workshop on the Representation and Processing of Sign Languages: Involving the Language Community. European Language Resources Association (ELRA), Miyazaki, Japan 2018, ISBN 979-1-09554601-6, S. 83–90 (englisch, uni-hamburg.de).
  15. Thomas Hanke, et al.: Lizenz. In: MEINE DGS. Universität Hamburg, 2018, abgerufen am 4. November 2024.
  16. Reiner Konrad, et al.: Lizenz. In: MEINE DGS – annotiert. Universität Hamburg, 2020, abgerufen am 4. November 2024.
  17. Gabriele Langer, Anke Müller, Sabrina Wähl, Felicitas Otte, Lea Sepke, Thomas Hanke: Introducing the DW-DGS – The Digital Dictionary of DGS. In: Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Johanna Mesch, Marc Schulder (Hrsg.): Proceedings of the LREC-COLING 2024 11th Workshop on the Representation and Processing of Sign Languages: Evaluation of Sign Language Resources. European Language Resources Association (ELRA), Turin, Italy 2024, ISBN 978-2-493-81430-2, S. 316–325 (englisch, uni-hamburg.de).
  18. Sabrina Wähl, Gabriele Langer, Anke Müller: Hand in Hand - Using Data from an Online Survey System to Support Lexicographic Work. In: Mayumi Bono, Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Jette Kristoffersen, Johanna Mesch, Yutaka Osugi (Hrsg.): Proceedings of the LREC2018 8th Workshop on the Representation and Processing of Sign Languages: Involving the Language Community. European Language Resources Association (ELRA), Miyazaki, Japan 2018, ISBN 979-1-09554601-6, S. 199–206 (englisch, uni-hamburg.de).
  19. Thomas Hanke, Elena Jahn, Sabrina Wähl, Oliver Böse, Lutz König: SignHunter – A Sign Elicitation Tool Suitable for Deaf Events. In: Eleni Efthimiou, Stavroula-Evita Fotinea, Thomas Hanke, Julie A. Hochgesang, Jette Kristoffersen, Johanna Mesch (Hrsg.): Proceedings of the LREC2020 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives. European Language Resources Association (ELRA), Marseille, France 2020, ISBN 979-1-09554654-2, S. 83–88 (englisch, uni-hamburg.de).