XML-Retrieval

XML-Retrieval oder XML Information Retrieval (XML IR) ist das inhaltsbasierte Retrieval von Dokumenten, die mit der Extensible Markup Language (XML) strukturiert sind.^[1]

Anfragen

Die meisten Ansätze für das XML-Retrieval basieren auf Techniken aus dem Bereich des Information Retrievals (IR) und berechnen beispielsweise die Ähnlichkeit zwischen einer aus Stichworten bestehenden Anfrage und dem Dokument. In XML-Retrieval kann die Anfrage darüber hinaus auch Strukturhinweise enthalten. Sogenannte content and structure (CAS) Anfragen ermöglichen es dem Benutzer, die XML-Struktur zu spezifizieren, die den gewünschten Suchterm enthalten soll oder kann.

Nutzung von XML-Struktur

Die selbstbeschreibende Struktur von XML-Dokumenten kann dazu genutzt werden, die Suche nach XML-Dokumenten teilweise erheblich zu verbessern. Dies umfasst die Verwendung und Nutzung von CAS-Anfragen, die Zuweisung unterschiedlicher Gewichte zu verschiedenen XML-Elementen (so dass z. B. ein Titel-Element höher gewichtet wird als eine Fußnote), oder das fokussierte Retrieval von Teildokumenten.

Ranking

Das Ranking, also die Relevanzbewertung eines Dokumentes, kann beim XML-Retrieval sowohl Inhalt als auch Struktur-Ähnlichkeit berücksichtigen, also die Ähnlichkeit zwischen der Struktur, die in der CAS-Anfrage angegeben wurde und der Struktur im zu bewertenden Dokument. Darüber hinaus können die Ergebnisse einer strukturierten Anfrage entweder komplette Dokumente sein, oder auch beliebig tief verschachtelte XML-Elemente eines Dokumentes. Das Ziel ist dabei, das kleinste Ergebnis zu finden, das die höchste Relevanz aufweist, wobei Relevanz auch als Spezifität zu verstehen ist, also als das Ausmaß zu dem das Ergebnis auf das gewünschte Ergebnis fokussiert ist.^[2]

XML-Suchmaschinen

Die INitiative for the Evaluation of XML-Retrieval (INEX) wurde 2002 gegründet und stellt eine Plattform zur Evaluierung von XML IR Algorithmen zur Verfügung.^[2] Drei Gebiete beeinflussen XML-Retrieval:^[3]

XML-Anfragesprachen: Anfragesprachen wie der W3C-Standard XQuery ermöglichen komplexe Suchanfragen, jedoch werden nur exakte Treffer ermöglicht, also keine Relevanzberechnung und kein Ranking der Ergebnisse. Sie müssen daher erweitert werden, damit die vage Suche durch Relevanzberechnung möglich ist. Die meisten XML-basierten Ansätze setzen ein genaues Wissen des den Dokumenten zugrundeliegenden Schemas (XML Schema oder DTD) voraus.^[4]
Datenbanken: Klassische Datenbanksysteme bieten mittlerweile die Möglichkeit, auch semi-strukturierte Daten abzuspeichern,^[3] was zur Entwicklung von XML-Datenbanken geführt hat. Oft sind solche Ansätze sehr formal, konzentrieren sich mehr auf die Suche selbst als auf das Ranking, und sind für erfahrene Benutzer gedacht, die komplexe Anfragen formulieren können.
Information Retrieval: Klassische Information-Retrieval-Modelle wie das Vector-Space-Modell basieren auf Relevanzberechnungen, sie nutzen jedoch keine Dokumentenstruktur aus, sondern erlauben lediglich einfache Anfragen. Sie setzen des Weiteren auf ein statisches Dokumentenkonzept, so dass die Ergebnisse üblicherweise aus kompletten Dokumenten bestehen.^[4] Sie können jedoch erweitert werden, um Strukturinformation und dynamisches Dokumentenretrieval zu ermöglichen. Solche Ansätze benutzen Dokument-Teilbäume (Index-Terme plus Struktur) als Dimensionen des Vektorraums.

Literatur

S. Amer-Yahia, M. Lalmas: XML Search: Languages, INEX and Scoring. SIGMOD Rec. Vol. 35, No. 4, 2006
S. Liu, Q. Zou, W. Chu: Configurable Indexing and Ranking for XML Information Retrieval. In: Proc. of the 27th Annual International ACM SIGIR Conference, ACM Press, 2004
S. Pal: XML Retrieval – A Survey. 2007, Technical Report, CVPR

Einzelnachweise

↑ J. Winter, O. Drobnik: An Architecture for XML Information Retrieval in a Peer-to-Peer Environment. ACM PIKM2007 at ACM 16th Conference on Information and Knowledge Management (CIKM 2007), Lisbon, Portugal, 2007.
↑ ^a ^b S. Malik, A. Trotman, M. Lalmas, N. Fuhr: Overview of INEX 2006. In: Proc. of the Fifth Workshop of the INitiative for the Evaluation of XML Retrieval, Germany, 2007.
↑ ^a ^b N. Fuhr, N. Gövert, G. Kazai, M. Lalmas (Hrsg.): INitiative for the Evaluation of XML Retrieval (INEX). In: Proc. of the First INEX Workshop, Dagstuhl, Germany, 2002, ERCIM Workshop Proceedings, France, 2003
↑ ^a ^b Torsten Schlieder, H. Meuss: Querying and Ranking XML Documents. Journal of the American Society for Information Science and Technology, Vol. 53, No. 6, 2002

[1] J. Winter, O. Drobnik: An Architecture for XML Information Retrieval in a Peer-to-Peer Environment. ACM PIKM2007 at ACM 16th Conference on Information and Knowledge Management (CIKM 2007), Lisbon, Portugal, 2007.

[inex2006-2] S. Malik, A. Trotman, M. Lalmas, N. Fuhr: Overview of INEX 2006. In: Proc. of the Fifth Workshop of the INitiative for the Evaluation of XML Retrieval, Germany, 2007.

[inex2002-3] N. Fuhr, N. Gövert, G. Kazai, M. Lalmas (Hrsg.): INitiative for the Evaluation of XML Retrieval (INEX). In: Proc. of the First INEX Workshop, Dagstuhl, Germany, 2002, ERCIM Workshop Proceedings, France, 2003

[queryingandranking-4] Torsten Schlieder, H. Meuss: Querying and Ranking XML Documents. Journal of the American Society for Information Science and Technology, Vol. 53, No. 6, 2002

[1]

[2]

[3]

[4]