Wikipedia:DVD/Digibib/Erfahrungsbericht Erstellung

Diese Seite gehört zum Wikipedia-Archiv.

Vorarbeiten in der Live-Wikipedia

Bearbeiten

Zwischen Oktober und Dezember 2004 wurde über den Aufbau eines Schemas zum Erfassen der Personendaten diskutiert. Nachdem man sich auf einen Standard verständigt hatte, wurden diese Metainformationen mit Hilfe des (immer wieder "genial" genannten) Tools von APPER und der Listen von SirJective eingepflegt. Allein während der Wikipedia Tagging Party vom 28. bis 30. Januar 2005 bei Directmedia in Berlin wurden – mit Unterstützung vieler externer Helfer – rund 13.000 Datensätze eingepflegt. Bis zum Snapshot am 4. März hatten rund 35.000 Personenartikel gültige Personendatensätze.

Andere kritische Punkte, die im Erfahrungsbericht zur Wikipedia-CD Herbst 2004 angesprochen wurden, vor allem fehlerhaftes Markup, unnötige Tabellenstrukturen, PRE-Text und Bildlizenzen konnten aus Kapazitäts- und wohl auch Motivationsgründen in dem kurzen Zeitraum nicht angegangen werden.

Endreview auf einem Wikipedia-Mirror

Bearbeiten

Am 5. März 2005 um 00:00 Uhr wurde ein Snapshot der Live-Wikipedia (de und commons) erzeugt. Mit diesem wurde von Gwicke ein Mirror für das Endreview aufgesetzt. Dort wurde dieser von einem Endreviewteam, bestehend aus 33 aktiven Wikipedianern, bereinigt. Die Kommunikation der Reviewer lief über einen eigens dafür eingerichteten IRC-Kanal.

Oberste Maxime war stets, dass alle sinnvollen Korrekturen (natürlich nicht alle Änderungen) auch parallel in der Live-Wikipedia gemacht werden. Bei vielen Link-Fixes waren Bots dort aber schon schneller.

Erledigte Arbeiten

Bearbeiten
  • Löschkandidaten überprüft und gegebenenfalls entfernt
  • frisch gefundene URVs entfernt
  • unsinnige Artikel im Zweifelsfall entfernt
  • gezielt nach Spam und Vandalismus gesucht, aktuelle Listen wurden von Gwicke durch SQL-Abfragen generiert
  • fehlerhaftes Markup korrigiert, vor allem nach Listen von Vlado, die aus dem Snapshot generiert wurden
  • Linkfixes nach Listen von Vlado
  • teilweise korrupte oder nicht sortierbare (Datumsformate!) Personendaten korrigiert
  • die Hauptseite und einige Spezialseiten für die LAMPPIX-Version erstellt

Artikel schützen

Bearbeiten

Während obiger Endreview-Arbeiten, vor allem aber auch gezielt wurden alle besuchten Seiten zumindest grob überflogen und dann "geschützt", d.h. als brauchbar für die DVD befunden. Geschützte Artikel wurden mit grünen statt blauen Links angezeigt, um Doppelarbeit zu vermeiden. Dieses Prinzip hat sich gut bewährt, funktionierte jedoch bei einigen Spezialseiten leider nicht. Ziel war dabei nicht, alle 205.000 Artikel zu schützen (unmöglich in dieser Zeit), sondern gezielt potentiell vandalismusgefährdete und sehr schlechte Artikel zu suchen und unterwegs alle guten zu markieren. Jeder Benutzer hatte "seine" Strategien beim Schützen, u.a. haben sich die eigene Beobachtungsliste und SQL-Abfragen nach bestimmten Kriterien als gut erwiesen.

Insgesamt wurden rund 25.000 Artikel auf diese Art geschützt, 5.000 davon automatisch, da sie sich seit dem letzten Schützen für die CD-ROM (damals gleiches Prinzip) nicht mehr geändert hatten.

Beteiligte Wikipedianer

Bearbeiten

APPER, Anathema, Bananeweizen, Bdk, Blaite, Breeze, DaB., Darkone, Echoray, Elya, Flacus, Guenny, Gwicke, Hadhuey, Head, Hendrik_Brummermann, Henriette_Fiebig, JuergenL, Koethnig, Kurt_Jansson, LeonWeber, Magnus_Manske, Mathias_Schindler, Mbimmler, MichaelDiederich, Nina, Paddy, PatrickD, Peterlustig, Sansculotte, Schnargel, Schusch, Vlado.

It's Dump Time

Bearbeiten

Am 11. März 2005 wurde ein Dump zum Erstellen der PDA-Versionen gezogen. Bis zum 13. März wurden die Lamppix-Spezialseiten erstellt. Danach wurde der Dump für die Lamppix-Version gezogen, am 15. März der Digibib-Dump.

Parallel dazu wurde von Gwicke die Versionsgeschichte aller Artikel extrahiert, die in Kurz- und Langform auf der DVD und in Kurzform (nur Autoren) auf der CD hinterlegt ist.

Dabei gelernt

Bearbeiten

Beim Review-Prozess der letzten CD-ROM waren etwas mehr Wikipedianer als diesmal beteiligt. Es zeigte sich aber bereits am zweiten Tag, dass man keine weiteren Endreviewer hinzubitten muss, da die wichtigen Aufgaben von dem sich zusammengefundenen Team erledigt werden konnten. Man kann sicher die Fehlerfreiheit usw. durch mehr Reviewer erhöhen, doch würde das wiederum Kapazitäten von der Live-Wikipedia abziehen.

Bei inhaltlichen Fragen hat das Team in bewährt mutiger Wiki-Art ohne zentrale Steuerung und Hierarchien agiert. Vlado als Projektleiter bei Directmedia war Letztinstanz bei technischen Fragen.

Das Hosting des Mirrors und die technische Betreuung durch Gwicke war, wie beim letzten mal auch, sehr professionell gemacht und verlief problemlos ("Endlich mal eine schnelle Wikipedia!")

Beim nächsten mal besser machen kann man:

  • Endreview-Richtlinien vorab zusammenfassen und diskutieren (sollte Initiative von Directmedia sein)
  • diverse Arbeiten (Syntaxchecks usw.) können schon vorab Tool-unterstützt in der Live-Wikipedia durchgeführt werden

Konvertierung nach XML für Digibib

Bearbeiten

Die XML-Dateien der vorangegangenen CD-ROM wurden nur halbautomatisch mit sehr hohem Aufwand aus den von MediaWiki erzeugten HTML-Dateien konvertiert. Dieser Weg erwies sich als falsch.

Wiki2Digibib ist ein von Vlado in Delphi 7 geschriebener Konverter, der auf dem finalen Dump (de und commons inklusive aller Bilder) aufsetzt und XML, das Eingangsformat des Generators der Digibib erzeugt. Manuelle Nachbearbeitungen der XML-Dateien ist nicht mehr nötig.

Der Konverter benötigt für den de- und commons-Dump auf einem 3 GHz-PC 1:45 Stunden. Er verarbeitet dabei rund 300.000 Artikel (auch Bilder und Vorlagen) mit 4 Millionen Links und produziert 1 GB XML-Dateien. Die Bilder von de und commons (20 GB) müssen dabei vorhanden sein.

Aus den XML-Dateien erzeugt der Digibib-Generator das eigene Format, was mit Skalieren der 20.000 Abbildungen ca. 10 Stunden benötigt. Diese "unpraktisch" lange Zeit hat viel zur Verzögerung der Produktion beigetragen, da Zwischenversionen zu internen Testzwecken de facto nur von Tag zu Tag generiert werden konnten.

Erstellen der Lamppix-CD-ROM

Bearbeiten

Die CD-ROM wurde von Raul Gigea mit Unterstützung von Thomas Ungewitter (beide Mitarbeiter von Directmedia) und des Lamppix-Autoren Tino Wagner zusammengestellt.

Der Erfahrungsbericht folgt nach Rauls Urlaub.

Erstellen der PDA-Versionen

Bearbeiten

Die Mobipocket-Version wurde von Christoph Kaufmann von beam-bibliothek.de und die TomeRaider3-Version von Erik Zachte erstellt.

Beim nächsten mal...

Bearbeiten