Cross-Language Evaluation Forum

Das Cross-Language Evaluation Forum (kurz: CLEF) ist aus der TREC-Aufgabe Cross-Language Information Retrieval (CLIR) entstanden, welches sich hauptsächlich mit dem Cross-Language Information Retrieval europäischer Sprachen befasste.

CLEF ist mittlerweile ein eigenständiges EU-Projekt und bietet eine Plattform zur Evaluierung und Verbesserung von Information-Retrieval-Systemen für europäische Sprachen.

Die seit 2000 von CLEF jährlich organisierten System-Evaluations-Kampagnen sollen die Zusammenarbeit von Forschern und Entwicklern fördern und somit zukünftige Initiativen zur Zusammenarbeit von Gruppen mit ähnlichen Interessen vereinfachen und fördern. Es geht hierbei darum, Nutzeranfragen, die in einer beliebigen europäischen Sprache gestellt werden, in beliebigsprachigen Dokumentmengen abzuarbeiten und eine nach Relevanz geordnete Ergebnismenge zu erhalten, die auf diese Frage eine Antwort darstellt. Auch einsprachiges Information Retrieval stellt einen Schwerpunkt der Evaluierung dar, ist jedoch vor allem für Teams vorgesehen, die das erste Mal an der Kampagne teilnehmen. Es bestehen auch Kooperationen mit ähnlichen, anderssprachigen Initiativen aus den USA und Asien.

Das eigentliche Ziel ist, die Entwicklung der europäischen Cross-Language Retrieval Systeme zu unterstützen und anzuregen, damit ihre Wettbewerbsfähigkeit auf dem Weltmarkt gesichert ist.

CLEF-Struktur und Methoden der Evaluation

Verwendete Datenbestände und Sprachen der Dokumente

Die Datenbestände in CLEF bestehen hauptsächlich aus Zeitungsartikeln und Meldungen von Nachrichtenagenturen und entstammen in jeder Sprache demselben Jahr bzw. Zeitraum, um sicherzustellen, dass dieselben Ereignisse und Themen in den einzelnen Datenbeständen jeder Sprache vorkommen. Weiterhin liegen auch Datenbestände aus wissenschaftlichen Quellen für fachliches Cross-Language Information Retrieval vor.

Für die Auszeichnung der enthaltenen Datenelemente sind die einzelnen Dokumente mit SGML-Tags versehen.

Die Kernsprachen sind Deutsch, Englisch, Französisch, Italienisch und Spanisch. Vereinzelt liegen auch Datenbestände in weiteren Sprachen vor.

Themenstellungen (Topics)

Die Themenstellungen müssen von den verschiedenen Sprachgruppen erarbeitet werden und sollen die Inhalte der entsprechenden Dokumente hinreichend wiedergeben bzw. zusammenfassen.

Von jeder Sprachgruppe werden dann mehrere Vorschläge für Themen verfasst, wovon letztlich 50 ausgewählt werden, die den Evaluierern anschließend zur Verfügung gestellt werden. Diese 50 Topics werden nun in alle beteiligten Sprachen übersetzt, was anschließend noch einmal von Fachübersetzern geprüft wird, um eine gewisse Konsistenz in den Übersetzungen zu gewährleisten.

Topic-Beispiele jeweils mit einer Übersetzung

Die gewählten Topics mit SGML-Tags bestehen aus einer fortlaufenden Nummer (num), einem Titel (title), einer kurzen Beschreibung (desc) sowie einer ausführlichen Beschreibung (narr).

Ausgangssprache (hier englisch)

<top> <num> C088 </num> <EN-title> Mad Cow in Europe </EN-title> <EN-desc> Find documents that cite cases of Bovine Spongiform Encephalopathy (the mad cow disease) in Europe. </EN-desc> <EN-narr> Relevant documents will report statistics and/or figures on cases of animals infected with Bovine Spongiform Encephalopathy (BSE), commonly known as the mad cow disease, in Europe. Documents that only discuss the possible transmission of the disease to humans are not considered relevant. </EN-narr> </top>

Zielsprache (hier italienisch)

<top> <num> C088 </num> <IT-title> Mucca pazza in Europa </IT-title> <IT-desc> Trova i documenti che citano i casi di mucca pazza (Encefalopatia Spongiforme Bovina) in Europa. </IT-desc> <IT-narr> Sono rilevanti i documenti che riportano statistiche e/o dati numerici sui casi di animali affetti da Encefalopatia Spongiforme Bovina (BSE), comunemente detta morbo della mucca pazza, in tutti i paesi europei. Non sono rilevanti i documenti sulla possibile trasmissione del morbo all'uomo. </IT-narr> </top>

Bewertungsverfahren von CLEF

Das Bewertungsverfahren für CLEF beruht auf der Pooling-Methode von TREC. Dazu müssen die teilnehmenden Systeme ihre integrierten, geordneten Ergebnislisten pro Themenstellung liefern. In diesen Listen findet man die Nummern derjenigen Dokumente für die jeweiligen Themen, die von den Systemen als relevant ermittelt wurden und zwar in absteigender Reihenfolge der vermuteten Relevanz. In einem Pool finden sich die ersten 60 Dokumente für das entsprechende Topic wieder. Entscheidend ist nur, dass alle Ergebnislisten zu einer der 50 Themenstellungen der Hauptaufgabe bzw. zu einer der je 25 Themenstellungen der domänenspezifischen Aufgabe (GIRT) und der wissenschaftlichen Aufgabe (MARYLLIS) zusammengespielt werden und danach in eine Zufallsreihenfolge gebracht werden. So ist nicht mehr feststellbar, welches Dokument von welchem System stammt oder an welcher Stelle der vermuteten Relevanzreihenfolge es vorher zu finden war. Diese Listen werden anschließend nach Sprachen aufgeteilt. Hier werden die entsprechenden Dokumentnummern aus den Korpora, die zu einer bestimmten Sprache gehören, zusammengeführt. Man erhält so pro Themenstellung eine umfangreiche Sammlung von Dokumenten zu einer jeweiligen Sprache, um anschließend eine Relevanzbewertung vornehmen zu können.

Relevanzbewertung

Bei der Relevanzbewertung werden die geordneten Ergebnislisten einer Sprache von Juroren einer jeweiligen Sprachgruppe beurteilt. Die Beurteilung wird mit Hilfe der von NIST entwickelten Bewertungssoftware ASSESS festgehalten. Die Bewertungen der Juroren, ob die Ergebnislisten für ein Thema relevant oder nicht relevant sind, werden den sprachbezogenen Ergebnislisten jeder Themenstellung hinzugefügt. Die Juroren ziehen bei ihrer Beurteilung die Themendiskussionen der Sprachgruppen als Richtlinien für die Relevanzentscheidung in Betracht und sie benutzen die Narratives der Themenstellungen als Entscheidungshilfen.

Aufgabenstellungen (tasks)

CLEF zielt vor allem auf die Weiterentwicklung von multilingualen IR-Systemen ab. Dabei sollte aber nicht vernachlässigt werden, dass auf dem Weg zum Testen mehrsprachiger IR-Systeme, weitere Sprachen mit einbezogen werden können und auch das Sammeln von Erfahrungen bei der Ausrichtung von Tests war ein wichtiger Punkt. Aus diesem Grunde wurden unterschiedliche Aufgabenstellungen (Tasks) formuliert, denen sich die Teilnehmer stellen konnten. Die Hauptaufgabenstellung von CLEF ist das mehrsprachige Information Retrieval (multilingual task). Hierbei werden Dokumente in allen Hauptsprachen gesucht, wobei eine dieser Sprachen als Anfangssprache dient. Anschließend wird eine Liste erstellt, die sämtliche Ergebnisse aus allen Dokumentsammlungen (d. h. aus allen Hauptsprachen) beinhaltet. Es ist aber auch möglich weitere Sprachen als Ausgangssprache zu verwenden (z. B. Finnisch, Russisch, Schwedisch), da entsprechende Übersetzungen der Themenstellungen dieser Gruppen erstellt werden. Die Hauptsprache bleibt dabei ebenfalls die Zielsprache.

Bei der zweisprachigen Aufgabenstellung (bilingual task) wird in einer beliebigen Ausgangssprache, die nicht gleich der Zielsprache ist, nach Dokumenten z. B. in englischer oder holländischer Sprache gesucht. Aus diesem Grund stellen die CLEF-Organisatoren auch Übersetzungen der Themenstellungen ins Holländische sowie weitere linguistische Ressourcen für das Holländische (Stoppwortliste, Stemmer, Holländisch-Englisch Lexikon) zur Verfügung.

Die einsprachige Aufgabenstellung (monolingual task) sieht auf der anderen Seite vor, nach Dokumenten z. B. in deutscher, englischer, französischer, holländischer, italienischer und spanischer Sprache in einer der entsprechenden Dokumentsammlungen zu suchen. Die englische Sprache wird in diesem Fall ausgeschlossen, da durch den Ad-hoc-Retrieval Task von TREC dieser Bereich bereits in der Vergangenheit abgedeckt wurde und somit keine neu Herausforderung im Hinblick auf linguistische Probleme und Übersetzungsfragen darstellt. Die einsprachige Aufgabenstellung ist als Einstieg für CLEF-Teilnehmer gedacht und auf diese Weise können neue Sprachen für multilinguale Aufgabenstellungen eingeführt werden.

Die wissenschaftliche bzw. fachbezogene Aufgabenstellung (scientific and domain-specific) erlaubt nach (sozial)wissenschaftlichen Dokumenten in speziellen Dokumentsammlungen nämlich GIRT (German Indexing and Retrieval Testdatabase) oder AMARYLLIS zu suchen. Damit reagierte CLEF auf die immer wieder aufkommenden Vorwürfe, dass CLEF große Evaluierungen immer nur auf Basis von Zeitungstexten durchführe und man so nicht zu übertragbaren Ergebnissen gelange. Die Dokumente der GIRT- und AMARYLLIS-Datenbanken enthalten auch intellektuell vergebene Schlagwörter jeweils aus einem (sozial)wissenschaftlichen Thesaurus, der ebenfalls zur Verfügung gestellt wird (auch in englischer bzw. bei GIRT auch in russischer Übersetzung). Außerdem werden dafür spezifische Themenstellungen auf Englisch und Deutsch bzw. Französisch (bei GIRT außerdem in Russisch) bereitgestellt.

Die letzte Aufgabenstellung ist die interaktive Aufgabenstellung (interactive task). Diese soll vor allem eine experimentelle Aufgabenstellung definieren. Ziel ist hier, die Evaluierung von interaktiven CLIR zu erforschen und Vergleichsmaßstäbe zu entwickeln, an denen weitere Forschungen gemessen werden können. Hier wird also die Retrievaleffektivität in Kombination mit der Benutzungsoberfläche bewertet. Explizit geht es hier um die Möglichkeiten, die Anfrage zu formulieren und zu verändern und die Ergebnisdokumente schnell bewerten zu können. Die Bearbeitung der Anfragen übernehmen in diesem Fall Testpersonen. Somit werden die Anfragen nicht automatisch vom System oder von Experten erstellt.

Hierbei führen die Teilnehmer mit unterschiedlichen Retrievalsystemen eine Suche zu einem Thema durch. Die Anfrage an die Retrievalsysteme wird in einer Sprache gestellt und sie liefern Dokumente in allen Zielsprachen. Die Retrievalsysteme benutzen systemspezifische Methoden um die Suche, die Übersetzung oder die Transformation in andere Sprachen zu lösen. Am Ende des Rückgewinnungsprozesses müssen sie einen integrierten und geordneten Ergebnissatz der Dokumente liefern, von denen angenommen wird, dass sie für die Themenstellung relevant sind. Die Integration der Ergebnisse aus verschiedenen Datenbeständen ist neben der Lösung der Übersetzungsprobleme eine weitere Herausforderung.

Frage-Antwort-Disziplin (QA Track)

Seit 2003 gibt es eine Frage-Antwort-Disziplin (QA Track, kurz: QA@CLEF), die Frage-Antwort-Systeme für nicht-englische europäische Sprachen evaluiert. Im Jahr 2007 wurden die Dokumenten-Kollektionen massiv geändert, indem für jede beteiligte Sprache ein Schnappschuss der Wikipedia zu den traditionellen Nachrichten-Korpora hinzugenommen wurde. Im Jahr 2009 wurde ein komplett neues Korpus mit EU-Dokumenten (JRC-Acquis) genommen. In den verschiedenen Jahren wurden auch weitere Aufgaben bei QA@CLEF angeboten, z. B. Fragebeantwortung für gesprochenen Sprache, Fragebeantwortung für geographisch gefärbte Fragen zu Wikipedia-Inhalten (GikiP, GikiCLEF).

CLEF-Workshops

Jedes Jahr seit 2000 veranstaltet CLEF auch einen Workshop, wo die aktuellen CLEF-Ergebnisse präsentiert und diskutiert werden. Dabei orientiert sich der Veranstaltungsort stets(?) an der Konferenz ECDL. Im Folgenden sind die Tagung-Orte angegeben:

Jahr	Ort
2000	Lissabon
2001	Darmstadt
2002	Rom
2003	Trondheim
2004	Bath
2005	Wien
2006	Alicante
2007	Budapest
2008	Aarhus
2009	Korfu
2014	Sheffield
2015	Toulouse
2016	Evora

Weblinks

http://www.clef-campaign.org/
Ausführliche deutsche Erläuterung zum Thema (PDF-Datei; 125 kB)