In einem Satz
BearbeitenDie automatische Erstellung eines handlichen Readers zu einem gegebenen Thema ohne jedwede Interaktion mit dem Benutzer.
Rationale
BearbeitenWikipedia wird in der Tendenz eine so große Textmenge umfassen, daß es um die Suche nach Methoden gehen sollte, wie diese Texte zu erschließen sind. Solange der Leser eine konkrete Vorstellung hat, wonach er suchen will, kann dies vermutlich noch gutgehen. Sobald es aber komplizierter wird oder auch nur ansatzweise das entsprechende Vorwissen fehlt, braucht der Leser Hilfestellungen, die ihm die engeren Beziehungen der Texte untereinander nahelegen.
Dabei soll versucht werden, automatisch ein PDF-Dokument zu einem Thema zu erstellen. Automatisch heisst hier vor allem, daß auch die Auswahl der Lemmata und etwaige Kürzungen von Artikeln oder das Anlegen von Glossaren, Übersetzungslisten oder Linklisten automatisch geschieht. Auch wenn in einem guided more durchaus manuelle Feinkorrekturen erlaubt werden können, besteht die zentrale Idee aus der geringsten Interaktion mit dem Menschen.
Szenario 1
BearbeitenErstellung eines Dossiers "Islam".
Bearbeiten- Der Benutzer trägt in ein Webformular "Islam" ein.
- Das Skript überprüft, ob der Begriff Islam existiert.
- Das Skript lädt die dazugehörigen Seiten der mit dem Begriff Islam verlinkten Artikel
- Das Skript lädt die Liste der auf den Begriff linkenden Artikel.
- Das Skript lädt die Kategorie:Religion und Kategorie:Arabien, die im Artikel verlinkt sind. In allen drei Punkten werden Datumsangaben und Jahre unbeachtet.
- Rekursion: Bis in die zweite Ebene werden auch von den durch die drei letzten Punkte gewonnenen Artikel die backlinks, whatlinkshere und kategorien ausgelesen.
- Durch ein /Scoring-Verfahren werden die Begriffe herausgefischt, die eine besondere Nähe zu dem genannten Begriff an Position 1 haben. Es werden Schwellwerte definiert.
- Artikel, die im Scoring sehr nahe zum Originalbegriff stehen, kommen in Core 1.
- Artikel, die im Scoring nahe zum Orignialbegriff stehen, kommen in Core 2.
- Artikel, die im Scoring mäßig nahe zum Originalbegriff stehen, kommen in Core 3.
- Artikel Core 1 werden im PDF im Volltext abgedruckt.
- Artikel Core 2 werden auf den Definitionsteil gekürzt (=erster Absatz, oder Bestandteil vor dem ersten Abschnitt)
- Artikel Core 3 werden benutzt, um eine Wörterliste (dt-en, dt-fr, ...) zu erstellen. Dazu werden die interwikis ausgewertet.
Szenario 2
BearbeitenErstellung eines Dossiers zu einer Agenturmeldung
BearbeitenBerlin (AFP) - Die Liberalen im Europaparlament haben gefordert, dem umstrittenen designierten EU-Kommissar für Inneres und Justiz, Rocco Buttiglione, andere Zuständigkeiten zu geben. Der Fraktionsvorsitzende der Liberalen, Graham Watson, sagte, Buttiglione sei als Innen- oder Justizkommissar ungeeignet. Der designierte EU-Kommissionspräsident José Manuel Durão Barroso will die Zuständigkeiten in der neuen Kommission aber offenbar nicht ändern.
- Benutzer fügt Agenturmeldung (oder ähnlichen Text) in ein Webformular ein.
- Das Skript extrahiert alle Begriffe, die in der wikipedia vertreten sind. Problem: Stemming.
Wunschvorstellung (o.s.ä):
Buttiglione-Streit beschäftigt weiter EU-Fraktionen
Berlin (AFP) - Die Liberalen im Europaparlament haben gefordert, dem umstrittenen designierten EU-Kommissar für Inneres und Justiz, Rocco Buttiglione, andere Zuständigkeiten zu geben. Der Fraktionsvorsitzende der Liberalen, Graham Watson, sagte, Buttiglione sei als Innen- oder Justizkommissar ungeeignet. Der designierte EU-Kommissionspräsident José Manuel Durão Barroso will die Zuständigkeiten in der neuen Kommission aber offenbar nicht ändern.
- optional: Differenzierung nach Volltextsuche / Lemmaliste mit entsprechender Priorität.
- Aufbau eines Assoziationsnetzes, um den Kontext dieser Meldung zu erfassen
- Ausgabe der drei Begriffe, die am nächsten im Kontext dieser Meldung liegen
- Ab dann weiter wie in Szenario 1.
alt
BearbeitenDigest: Wikinews-Artikel
- Core 3: Lemmaliste
- Core 2: Begriffe: Definitionen
- Core 1: Begriffe: Volltexte
- . Artikel oder Liste angeben
- . Aus der Verlinkung die Kandidaten-Artikel auswählen ("Clustering"). (optional)
- . PDF wird gebacken
Inhalt:
- Cover
- Inhaltsverzeichnis (grob)
- Initialer Artikel
- Lemmaliste Core 1,2,3 (farbliche Markierung)
- Core 2
- Core 1
- Stichwortverzeichnis
- Übersetzungsliste
- GNU FDL