Die Selektion und die Anordnung der Lemmata für eine hundertbändige gedruckte Enzyklopädie, die innerhalb von 4 Jahren erscheinen soll und auf der schnell sich verändernden Wikipedia basiert ist zweifelsohne eine anspruchsvolle Aufgabe. Diese muss man mit viel Um- und vor allem Voraussicht lösen. Tasten wir uns heran.
Arbeitsmaterial
BearbeitenRaul hat ein Tool entwickelt, das von einem Dump eine Tabelle der (blauen und roten) Lemmata mit folgenden Feldern erzeugt:
- Daten für die alphabetische Einordnung
- Lemma Wikipedia
- Ist Artikel vorhanden J/N (es werden auch rote Links aufgenommen)
- Ist Redirect J/N
- Redirect-Ziel falls vorhanden
- Personendaten vorhanden J/N
- Name falls Personendaten vorhanden
- Alternativname falls Personendaten vorhanden
- Ist BKL J/N (aus dem Text via Baustein filtern)
- Alternativlemma aus den Kategorien zu ziehen: [[Kategorie:Historischer Brand|Chicago, Großer Brand von]], mit Semikolon aneinanderreihen falls unterschiedliche vorkommen
- Daten für die Vorabgewichtung
- Länge des Artikels in Bytes
- Erstellungsdatum des Artikels (noch nicht, dafür muss man den Full Dump verarbeiten)
- Anzahl der Edits (noch nicht, dafür muss man den Full Dump verarbeiten)
- Anzahl der Links innerhalb der Wikipedia auf dieses Lemma
- Sprachen der Interwiki-Links, durch Semikolon getrennt
- Daten für die Aufteilung in die Fachredaktionen
- Kategorien des Artikels, durch Semikolon getrennt
Rote Links werden als nicht vorhandene Artikel aufgenommen. Die Daten müssen jetzt aufbereitet werden, mehr demnächst.
Auswahl der Lemmata
BearbeitenDie meisten Listen werden nicht aufgenommen, "Standardlisten" wie Liste_der_Friedensnobelpreisträger schon.
Relevanzkriterien: Grundsätzlich soll jedes Lemma aufgenommen, das den Relevanztest der Community erfüllt. Die Länge des entsprechenden Artikels wird aber durch die Gewichtung des Artikels bestimmt.
Anordnung der Lemmata
BearbeitenOffene Fragen:
- Geschichte Griechenlands wird zu Griechenland (Geschichte)? (nicht in der Wikipedia, nur in der Lemmalogik)
- wo werden Lemmata eingeordnet, die mit Ziffern und Sonderzeichen beginnen?
- Umgang mit Redirects (die automatische Selektion, die bei der DVD 2005/06 vorgenommen wurde muss manuell verfeinert werden)
Gewichtung der Lemmata
BearbeitenSchneiden des Alphabets in 100 Teile
BearbeitenDie Grenze der Lemmastrecke des ersten Bandes muss bestimmt werden. Um ein Gefühl für die Proportionen klassischer Lexika zu bekommen kann diese Liste eingesehen und erweitert werden:
Name | Jahr | Bände | Seiten | Band1 | 1/100 |
---|---|---|---|---|---|
dtv Lexikon | 1966 | 20 | 320 | Bamu | Akti |
Herder 5.A | 1956 | 9 | 1510 | Bitt | Agra |
wissen.de | 2004 | 24 | 350 | Apis | Affe |
BertelsmannL | 1966 | 7 | 1430 | Camu | Afon |
Duden3B | 1961 | 3 | 750 | fz | Aich |
Duden3B | 1965 | 3 | 820 | fz | Ahle |
Duden3B | 1976 | 3 | 750 | fz | Agen |
Das moderne Lexikon (Bertelsmann) | 1979 | 20 | 447 | Art | Afrika |
Grosses Modernes Lexikon (Bertelsmann) | 1982 A | 12 | 574 | Baug | Aeroklimatologie |
Grosses Lexikon in Farbe | 1985 | 1 | 1080 | Ägäische Kultur (sort: Aga) | |
Der große Coron | 1993 | 20 | 496 | apostrophieren | Ädil |
Meyers Großes Universallexikon | 1981 | 15 | 648 | attributiv | Adhortativ |
Meyers Neues Lexikon | 1961 | 8 | 950 | Bossuet | Affenadler |
Meyers Universal Lexikon | 1978 | 4 | 720 | Finanz | Adder |
Brockhaus Konv. 8. Auflage | 1833 | 12 | 953 | Bluthochzeit | Ägina |
Brockhaus Konv. 11. Auflage | 1864 | 15 | 944 | Arachniden | Achard |
Brockhaus Konv. 13. Auflage | 1882 | 16 | 950 | Astrabad | Adventivknospe |
Brockhaus Konv. 14. Auflage | 1893 | 16 | 1018 | Arraroba | Adlerdollar |
Brockhaus Enz. 17. Auflage | 1966 | 20 | 830 | Atesis | Afrika |
Brockhaus Enz. 19. Auflage | 1986 | 24 | 700 | Aptychen | Affenfurche |
Der grosse Brockhaus | 1977 | 12 | 650 | Befund | Afrika |
Der Brockhaus in 5 Bd. 8. Auflage | 1993 | 5 | 695 | Eiszeit | Agrumen |
Das Wissen des 20. Jhd | 1966 | 6 | 575 | Element | Aktiengesellschaft |
Das Lexikon für Österreich | 2006 | 20 | 480 | Ausrüstung | Agenda 21 |
Im Vergleich dazu die Größenangaben und Berechnungen an Hand der XML-Daten der Wikipedia-DVD, Stand November 2005. Berücksichtigt sind nur die A-Z-Artikel ohne Ziffern- und Sonderzeichenartikel, Listen, Chroniken und Kalendertage.
Name | Datum | Bytes | 1/100 |
---|---|---|---|
Wikipedia-DVD | November 2005 | 1.205.714.498 | Afinger, Bernhard |