Extraktionsalgorithmus nach Luhn

wissenschaftlicher Artikel

Automatic Creation of Literature Abstracts ist eine Arbeit von Hans Peter Luhn von 1958. Sie beschreibt die erste Implementierung eines Algorithmus zur Satzextraktion. Ziel dieser Satzextraktion war die automatische Auswahl von Sätzen zur Anfertigung eines Abstracts.

Entstehung

Bearbeiten

Als sinnvolles Maß für die Relevanz von Wörtern sah Luhn die Häufigkeit, mit der ein Wort im Text auftaucht. Die Berechtigung für diese Annahme sieht er darin, dass ein Autor bestimmte Wörter, die mit dem Thema verbunden sind, bei seiner Argumentation und der Beschreibung verschiedener Aspekte wiederholt. Außerdem war er der Meinung, dass die Position von relevanten Wörtern innerhalb eines Satzes etwas über die Wichtigkeit dieses Satzes aussagt. Aus einer Kombination dieser beiden Werte wollte Luhn die Relevanz der Sätze bestimmen.

Bei der Durchführung des Algorithmus wird zuerst eine Art „Inventarliste“ mit allen vorkommenden Wörtern und deren Häufigkeit erstellt. Da Luhn der Meinung war, dass nur Wörter mit mittlerer Häufigkeit etwas über die Signifikanz eines Satzes aussagen und Wörter mit sehr hoher Häufigkeit eher nichtssagend, weil zu allgemein sind, wollte er diese allgemeinen Wörter mit sehr hohem Vorkommen im Text ausschließen. Er sah zwei Möglichkeiten, dies zu tun:

  • Vergleich dieser hochfrequenten Wörter mit einer Liste mit allgemeinen Wörtern und Ausschluss der Wörter, die als allgemein gelten, aus der Berechnung der Relevanz
  • Festlegen eines oberen und eines unteren Grenzwertes bezüglich der Häufigkeit, um zu allgemeine und zu selten vorkommende Wörter auszuschließen.

Luhn entschied sich für die zweite, einfachere Variante. Um die optimalen Grenzwerte zu finden, musste man sich auf die Erfahrung aus vielen Beispielartikeln verlassen.

Der Signifikanzwert eines Satzes berechnet sich aber nicht einfach aus den enthaltenen relevanten Wörtern. Da Luhn die Position und die Beziehung relevanter Wörter auch berücksichtigen wollte, sollten nur Satzteile, welche relevante Wörter enthielten, berücksichtigt werden. Es wurde festgelegt, dass ein relevantes Wort nur dann zu einer Wortgruppe (genannt Cluster) gehört, wenn zwischen ihm und dem nächsten relevanten Wort nicht mehr als vier oder fünf unwichtige Wörter stehen. Der Signifikanzfaktor berechnet sich daher wie folgt:

 

Nachdem die Sätze entsprechend ihrer Relevanz geordnet wurden, sollte der Satz bzw. die Sätze mit den höchsten Relevanzwerten für die Zusammenfassung ausgewählt werden.

Luhns Bilanz

Bearbeiten

Laut Luhn zeigen die Ergebnisse, das heißt die automatisch generierten Extrakte, dass es mit seinem Algorithmus möglich ist, Zusammenfassungen automatisch zu erstellen, die das Hauptthema des Originals fast genau so gut wiedergeben wie herkömmliche Zusammenfassungen.

Ein Vorteil der so erstellten Zusammenfassungen ist ihre Zuverlässigkeit, Konsistenz und Beständigkeit. Dies rührt daher, dass die unterschiedlichen Fähigkeiten und Orientierungen von Menschen keinen Einfluss auf die Zusammenfassung haben. Nach Luhns Meinung werden die Nutzer von Zusammenfassungssystemen nach und nach lernen, wie die erstellten Zusammenfassungen interpretiert werden müssen. So werden die Nutzer erkennen, dass einige Wörter sich auf Bemerkungen aus vorangegangenen, nicht extrahierten Sätzen beziehen.

Er sieht aber auch einige Nachteile, die die automatisch generierten Zusammenfassungen mit sich bringen. Er nennt zum Beispiel den Verlust der Gewandtheit der Zusammenfassungen. Auch sieht er Probleme, wenn der Stil eines Autors stark von der Allgemeinheit abweicht, da so eventuell geringerwertige Sätze ausgewählt werden können.

Ausblick

Bearbeiten

Trotz der Nachteile ist Luhn der Meinung, dass mit der automatischen Erstellung von Zusammenfassungen beachtliche und lohnende Einsparungen des menschlichen Aufwand erreicht werden können (vgl. H. P. Luhn: Automatic Creation of Literature Abstracts. In: IBM Journal of Research & Development 2 (2), April 1958, Seite 159–165.)

Allerdings sah Luhn auch Möglichkeiten, seinen Algorithmus zu verbessern. Zum einen könnte sein Ansatz dahingehend geändert werden, dass Zusammenfassungen von Text zu bestimmten Themen oder Untersuchungsbereichen entstehen. Zum anderen sah er Bedarf, Zusammenfassungen mit variabler Länge generieren zu lassen. So könnten zum Beispiel Zusammenfassungen entstehen, die auf die Bedürfnisse des einzelnen Anwenders zugeschnitten sind. Sollten dann die Signifikanzwerte der einzelnen Sätze nicht über einen bestimmten Grenzwert hinaus kommen, kann der Artikel als „zu allgemein“ für die Nutzerinteressen abgewiesen werden.

Bearbeiten