Personendaten sind spezielle Metadaten, die in Artikeln über Personen aufgenommen werden, damit sie daraus automatisch extrahiert und weiterverarbeitet werden können. Sie bestehen aus einer Reihe von Datenfeldern wie beispielsweise Name, Geburtstag und Kurzbeschreibung einer Person.
Bearbeitungsstand: Im August 2014 gab es in über 540.000 Biografie-Artikeln (mehr als 30 % der deutschsprachigen Wikipedia) Personendaten.
Diese Seite hier enthält Wartungslisten zu den Personendaten. Für technische Hinweise und Anleitungen zur Verwendung siehe Hilfe:Personendaten.
Geschichte der Personendaten
BearbeitenOhne einheitliche Formatierung bei Artikeln über Personen ist es sehr schwer, Daten über Personen aus den Artikeln zu extrahieren. Bei der Konvertierung für die erste Wikipedia-CD wurden halbautomatisch über 25.000 Personennamen nach den Regeln für die alphabetische Katalogisierung lemmatisiert und als allernotwendigste Teile eines Personendatensatzes Name, Kurzbeschreibung, Geburtsdatum, Geburtsort, Sterbedatum und Sterbeort ausgezeichnet.
Im Vorfeld der Erstellung der zweiten CD wurden die Personendaten in der heutigen Form eingeführt, damit die Daten zum einen nicht für jede CD erneut erstellt werden müssen und zum anderen auch für andere Projekte genutzt werden können. Die Einbindung begann im Dezember 2004. Directmedia, der Ersteller der Wikipedia-CD, unterstützte das Projekt im Januar 2005 mit einer „Tagging Party“.
Nach der deutschsprachigen Wikipedia hat Ende Dezember 2005 auch die englischsprachige Ausgabe diese Art von Metadaten eingeführt, dort trugen 2012 über eine Million Artikel das Template:Persondata.
Eine wichtige Anwendung war die Wikipedia-DVD, die Personendaten lassen sich aber auch anderweitig nutzen, beispielsweise zur Erstellung von Geburtstagslisten oder für eine Personensuche.
Zusätzlich werden seit 2005 Personenartikel mit wichtigen Personendatenbanken verknüpft. Anfangs wurde die Personennamendatei erschlossen, wodurch Wikipedia-Links im Online-Katalog der DNB realisiert wurden. Seit 2009 werden mit der Vorlage:Normdaten weitere Datenbanken wie die Authorities der Library of Congress[1] einbezogen.
Mit dem 2012 gestarteten Wikidata-Projekt steht seit rund 2013 eine weitere Software zur Wikimedia-weit zentralisierten Speicherung von Personendaten zur Verfügung, deren Befüllung allerdings vollständig unabhängig von den Personendaten in der deutschsprachigen Wikipedia abläuft. Die Daten aus der Personendaten-Vorlage haben bei Wikidata grob folgende analoge Felder:
- Name – Objektbezeichnung
- Alternative Namen – Objekt-Alias, Name in Muttersprache (P1559), Geburtsname (P1477), Pseudonym (P742), und weitere (keine 1:1-Zuordnung vorhanden)
- Kurzbeschreibung – Objektbeschreibung
- Geburtsdatum – Geburtsdatum (P569)
- Geburtsort – Geburtsort (P19)
- Sterbedatum – Sterbedatum (P570)
- Sterbeort – Sterbeort (P20)
Ein automatischer Abgleich der Daten in Wikidata mit den Personendaten oder ein automatischer Bezug von Daten von Wikidata wird nicht durchgeführt. Es gibt ferner keine Bestrebungen, die doppelte Datenhaltung in der deutschsprachigen Wikipedia zu beenden. In der englischsprachigen Wikipedia wurden die Personendaten dagegen durch ein Meinungsbild im Mai 2015 abgeschafft und bis Juli 2016 vollständig zurückgebaut.
Arbeiten mit den Personendaten
BearbeitenExtraktion der Personendaten
BearbeitenDie Extraktion der Personendaten und GND-Links ist entweder aus einer SQL-Datenbank oder direkt aus dem XML-Dump möglich. Weiteres steht auf der Unterseite Datenextraktion.
Herunterladen der Personendaten
BearbeitenEin tagesaktueller Dump aller Personendaten lässt sich unter toolforge:persondata herunterladen.
Abfragen und Auswerten von Personendaten
Bearbeiten- Wikipedia-Personensuche, einige Beispielabfragen:
- Wikipedia:WikiProjekt Vorlagenauswertung (derzeit nur einfache Abfragen möglich) Beispiele:
Wartung der Personendaten
BearbeitenDie Wartung der vorhandener Personendaten erfolgt mit Hilfe einiger Skripts. Es gibt einige Wartungslisten, bei denen die Personendaten möglicherweise verbesserungswürdig sind. Bitte entfernt abgearbeitete Artikel. Beim Neueintragen von Fehlerlisten gebt bitte das Datum des Datenbankdumps und ggf. das benutzte SQL-Statement an. Allgemeine Auswertungen der Personendaten werden unter Wikipedia:Personendaten/Auswertung gesammelt.
- Wikipedia:Personendaten/Wartung/Fehlerliste – Fehlerhafte Personendaten
- Wikipedia:Personendaten/Wartung/Fehlerliste/BKL – Personendaten, die auf Begriffklärungsseiten (BKL) zeigen
- Sonstiges
Benutzer:MerlBot/Vermutlich verstorben – Personen mit Gestorben-Kategorien in anderen WikisDiese Seite wurde aufgrund technischer Probleme seit 2014 nicht mehr aktualisiert. Für eine aktuellere Teilliste siehe Benutzer:MisterSynergy/Möglicherweise verstorbene Personen
Weitere Verwendungen
BearbeitenDie genaue Anzahl der Verwender und das Spektrum der Verwendung der Personendaten ist nicht zu ermitteln. Jeder kann sich die Daten aus einem Dump extrahieren und nutzen, ohne dass es jemand mitbekommt. Die oben genannten Beispiele haben alle einen direkten Bezug zur deutschsprachigen Wikipedia. Falls noch weitere Verwender bekannt sind, sollten sie nachstehend eingetragen werden.
- Die Liste der Biografien wird durch PD automatisch befüllt
- PD können zum Abgleich mit Personeneinträgen an anderen Stellen genutzt werden (in Vergangenheit z. B. nützlich für die Bundesarchiv-Kooperation)
- Das PD-Tool (siehe oben) wird verwendet, um runde Geburtstage zu finden, die auf der Hauptseite bekanntgemacht werden
Statistik
BearbeitenDie folgende Tabelle gibt die zahlenmäßige Entwicklung der biografischen Artikel in Wikipedia wieder:
Datum | Artikel | GND, Typ p[2] | Prozent GND |
---|---|---|---|
7. Sep. 2005 | 56.258 | 14.506 | 26 % |
27. Nov. 2005 | 64.875 | 15.476 | 24 % |
11. Dez. 2005 | 67.946 | 15.697 | 23 % |
12. Feb. 2006 | 79.532 | 17.328 | 23 % |
20. März 2006 | 86.830 | 18.069 | 21 % |
20. Apr. 2006 | 90.636 | 19.152 | 21 % |
5. Juni 2006 | 95.534 | 19.977 | 21 % |
3. Aug. 2006 | 101.737 | 21.569 | 21 % |
5. Nov. 2006 | 116.015 | 24.130 | 21 % |
30. Nov. 2006 | 120.285 | 24.792 | 21 % |
2. Apr. 2007 | 145.760 | 28.189 | 19 % |
28. Apr. 2007 | 152.645 | 29.106 | 19 % |
24. Mai 2007 | 157.561 | 30.989 | 20 % |
1. Juli 2007 | 163.444 | 31.462 | 19 % |
9. Okt. 2007 | 178.734 | 38.830 | 22 % |
17. Dez. 2007 | 187.452 | 40.059 | 21 % |
21. Feb. 2008 | 197.446 | 43.103 | 22 % |
23. Jan. 2011 | 365.366 | 141.129 | 39 % |
4. Mai 2011 | 381.465 | 147.920 | 39 % |
19. Dez. 2011 | 413.136 | 165.847 | 40 % |
7. Juli 2012 | 440.722 | 184.832 | 42 % |
1. Aug. 2013 | 467.863 | 221.221 | 47 % |
21. Okt. 2014 | 548.317 | 251.689 | 46 % |
30. Juni 2015 | 577.884 | 273.994 | 47 % |
11. Jan. 2020 | 811.827 | 384.096 | 47 % |
Weitere Informationen
BearbeitenEinzelnachweise
Bearbeiten- ↑ authorities.loc.gov
- ↑ Bis Ende April 2012 PND.