Dieser Teil diverser WikiProjekte beschäftigt sich mit der Überprüfung von Listeneinträgen gegen ihre Wikidata-Entsprechungen.

Teilprojekte

Bearbeiten

Folgende Teilprojekte werden betrachtet:


  • Navis (Koordinaten von Navis)
  • Orte (Links aus Navis)

Mitarbeit

Bearbeiten

Mitarbeit ist willkommen, bitte nach Abarbeitung einzelner Abweichungen diese aus den generierten Listen entfernen, um Doppelarbeit zu vermeiden.

Der von Herzi Bot Pinki betriebene Bot führt die Überprüfungen nach Anforderung (also nicht automatisch) durch und erzeugt bei Abweichungen Fehlerlisten mit passenden Meldungen. Der aktuelle Python-Code ist hier verfügbar [1]. Sinnvollerweise laufen die Prüfungen initial einmal und dann vor und nach größeren Updates. Weiters erzeugt der Bot eine Liste von Statements für Help:QuickStatements (noch nicht öffentlich).

Mithilfe von whitelists lassen sich einzelne Meldungen ignorieren. Ein Beispiel einer solchen whitelist und des verwendeten Formats findet sich in Wikipedia:WikiProjekt Österreich/checks/Denkmalschutz/whitelist. Whitelists müssen für jedes Teilprojekt im Bot konfiguriert werden.

Generelle Vorgehensweise:

  • Es werden nur Einträge (im Skriptkontext blocks genannt) aus den Listen betrachtet, die mit einer definierten Vorlage beschrieben sind und die eine Zuordnung zu einem Wikidata-Objekt haben. Solche Zuordnungen sind also anderweitig zu erstellen, das Skript hat nicht die Aufgabe, fehlende Wikidata-Objekte automatisch zu erzeugen.
  • Das Skript ignoriert bei der Überprüfung einzelne Claims in Wikidata, die mit dem Rang deprecated markiert sind.
  • Gibt es zu einem Claim mehr als ein Statement und ist eines davon mit dem Rang preferred ausgezeichnet, so werden alle anderen ignoriert.
  • Sind Statements mit Startzeitpunkt (P580) und Endzeitpunkt (P582) historisiert, werden nur die aktuell gültigen für den Vergleich herangezogen.
  • Gibt es zu einem Claim mehr als ein Statement und trifft keiner der vorhergehenden Fälle zu, dann wird das als Fehler betrachtet, die einzelnen Statements aber nicht näher analysiert.
  • Weiterleitungen auf Artikel in der WP:de, auf Bilder und auf Commonscats werden bei der Analyse aufgelöst und ergo berücksichtigt.
  • Das Skript kategorisiert die Abweichungen in info, warning und error mit steigendem Handlungsbedarf.

Überprüfungen

Bearbeiten

Das Skript beschäftigt sich mit den folgenden Eigenschaften, die üblicherweise in Vorlagen auf Wikipedia-Seite und in den korrespondierenden Wikidata-Objekten auftreten und prüft diese auf Konsistenz und Vollständigkeit. Es sind dies im Wesentlichen:

(erweiterbar)

Quickstatements (Wikidataänderungen)

Bearbeiten

Quickstatements werden für die folgenden Fälle erzeugt:

  • Versorgung und Korrektur von Commonscat in die Wikidata-Property Commons-Kategorie (P373), nicht aber in den Commons Sitelink
  • Bild auf Wikidata eintragen, falls dort keines vorhanden.
    • Für Dummy-Bilder wird auf Wikidata novalue eingetragen, das sorgt dafür, dass in den automatischen Kartographer-Karten etwa in den Denkmallisten die Symbole anders gefärbt werden.
  • Koordinaten auf Wikidata übernehmen, falls dort keine vorhanden.

Abweichungen und Aktionen im Einzelnen

Bearbeiten

Nicht jede Meldung einer Abweichung bedarf einer Aktion zur Behebung des Zustandes. Nicht jeder Zustand ist ein Missstand. Es folgen Beispiele mit Hinweisen. Die Beispiele erheben keinen Anspruch auf Aktualität. Die beiden Links in der Überschrift verlinken auf den Tabellenzeileneintrag (nicht immer perfekt) und auf das korrespondierende Wikidata-Objekt.

Objektabweichung

Bearbeiten

Bei falsch zugeordneten Objekten ergeben sich beliebige Folgefehler. Daher bitte immer auch die korrekte Zuordnung des Wikidata-Objekts im Auge behalten und diese korrigieren, alle diesbezüglichen Meldungen löschen und auf den nächsten Durchlauf hoffen.

Bildabweichung

Bearbeiten
  • info: mismatch of Foto/P18 (images):

Bilder dürfen gerne unterschiedlich sein. Diese Meldung dient der visuellen Kontrolle, ob beide Bilder dasselbe Objekt zeigen.

Koordinatenabweichung

Bearbeiten
  • warning: distance of 39 m between (47.574986,14.462679) and (47.575020,14.462160) (precision 1 m)

Bei identisch geschnittenen Objekten sollten die Koordinaten übereinstimmen. Es ist zu untersuchen, welche der beiden Koordinaten die richtige ist. Je größer der angegebene Abstand, umso größer der Handlungsbedarf. Abweichungen > 200 m werden als Fehler, solche > 20 m als Warnung gemeldet. Liegt der Abstand innerhalb der Genauigkeit der Koordinate auf Wikidata (die precision in Klammer), dann wird nur eine Info gemeldet. Generell würde ich davon ausgehen, dass die Angabe der precision auf Wikidata zufällig ist. Meiner Erfahrung nach divergieren die Koordinaten meist dann, wenn schon vor der Übernahme der Koordinaten nach Wikidata ein Artikel für dieses Objekt und ergo bereits ein Wikidata-Eintrag existiert hat. Dann bitte die Artikelkoordinaten auf WP:de in die Korrektur miteinbeziehen. Ein weiterer wichtiger Grund für die Abweichung ist die nachträgliche Korrektur von Koordinaten in den Listen. Wenn die Koordinaten in beiden Fällen eindeutig auf dasselbe Objekt zeigen, ist die Abweichung kein Fehler; es gibt aber Fälle, wo eine Korrektur trotzdem sinnvoll sein kann, etwa wenn ein Koordinatensatz nur auf den Rand des Objekts zeigt (z.B. die Straßenfassade eines Hauses).

Commonscatabweichung

Bearbeiten

Die Commonscat-Einträge auf WP:de und Wikidata passen nicht zusammen. Eine Anpassung ist sinnvoll, kann aber knifflig sein: eventuell sind Wikidata-Einträge und / oder Commons-Kategorien anders zu schneiden.

Artikelabweichung

Bearbeiten

Der Artikellink auf der Wikipediaseite und der Sitelink auf Wikidata stimmen nicht überein. Da Weiterleitungen auf beiden Seiten für den Vergleich aufgelöst sind, sind die beiden Artikel unterschiedlich geschnitten. Eine Konsolidierung ist anzustreben.

Bearbeiten

Ist in den Einträgen auf WP:de ein Artikel verlinkt, so sollte dieser existieren. Rotlinks verwirren insbesondere bei den Denkmallisten die globale Denkmaldatenbank von Multichill. Mein Vorgehen: In Abhängigkeit von den WP:RK den Rotlink auch gerne wieder entfernen, insbesondere bei Einzelverlinkungen. Ist derselbe Rotlink mehrfach verlinkt, dann lohnt es sich, ihn zu behalten. Siehe auch WP:Rotlinks.

Bearbeiten

Für das Wikidata-Objekt ist ein Sitelink auf WP:de definiert, dieser fehlt auf Seiten von WP:de. Wenn die Objekte gleich geschnitten sind, ist ein Eintrag / eine Verlinkung auf WP:de sinnvoll.

fehlende Commonscat (auf Wikipedia-Seite)

Bearbeiten

Manchmal stehen statt dem a lonely file! auch relevante Anzahlen. Zumindest wenn die Commonscat nicht nur einelementig ist, sollte sie in den Listen eingetragen und damit verlinkt werden. Eingetragene Commonscat helfen bei der Kategorisierung neu hochgeladener Bilder.

Constraint-Verletzung (auf Wikidata-Seite)

Bearbeiten

Die Constraint-Verletzungen wird hier in den Satz von Prüfungen aufgenommen, weil sie weitere Überprüfungen auf den einzelnen Statements verhindern (natürlich könnte man, …). Bestimmte Properties auf Wikidata (z.B. Bild (P18), Commons-Kategorie (P373)) sollten nur einen einzelnen Wert (bei gleichen Qualifiern) haben.

  • Bei Bildern gibt es Commonskategorien und daher keine wirkliche Notwendigkeit, mehrere Bilder in Bild (P18) anzuführen, zumal bei externen Zugriffen immer nur das erste angezeigt wird. Eine Einschränkung auf ein einzelnes Bild wird empfohlen, allerdings unter Rücksichtnahme auf die Befindlichkeiten der Fotograf*innen. Neben dem Hauptbild gibt es auf Wikidata noch weitere Möglichkeiten Bilder unterzubringen, etwa für Luftaufnahmen, Nachtaufnahmen, Innenaufnahmen, Winteraufnahmen.
  • Koordinaten sind kritischer, ein Objekt sollte nur eine Koordinate haben. Dies könnte möglicherweise ein Hinweis darauf sein, dass ein Wikidata-Item falsch bzw. zu umfassend zugeschnitten ist. Koordinaten aus unterschiedlichen Quellen sind zu konsolidieren und durch die bessere Koordinate zu ersetzen, Quellen sind nachzutragen. Ausnahmen sind Fälle, wo es unklare unterschiedliche Koordinaten zu einem Objekt gibt, dann sollte die beste & wahrscheinlichste Koordinate über den Rang als preferred oder die schlechteste & unwahrscheinlichste Koordinate als deprectated markiert werden. Ändert das Objekt seinen Standort (kann z.B. bei Statuen geschehen), dann sollten die Koordinaten historisiert werden. Koordinaten sollten das Objekt umfänglich treffen, es ist unwichtig, wo genau. Koordinaten dienen dem Auffinden eines Objekts auf Karten und in der Wirklichkeit. Daher sind Koordinaten, die sich im Meterbereich unterscheiden, verwirrend, aber nicht hilfreich. Unterschiedliche Koordinaten kommen etwa bei einem Merge zustande, und können gleich im Zuge des Merge bereinigt werden.
  • Commonscat-Einträge in Commons-Kategorie (P373) sind aufzulösen - welches Objekt jeweils beschrieben wird, sollte sehr klar sein. In der Regel besteht zwischen den angeführten Commons-Kategorien eine Eltern-Kind-Beziehung (die eine ist Unterkategorie der anderen) und die Mehrfacheinträge können durch die oberste Kategorie ersetzt werden. U.U. sind die Commons-Kategorien dafür anders zu schneiden.

Einschränkungen

Bearbeiten
  • Das Skript stützt gelegentlich und nicht reproduzierbar mit ServerError ab. Irgendwelche Aufrufe über das API scheinen sporadisch schiefzulaufen.
  • Das Skript funktioniert nicht gut für Listen, die ihre Informationen teilweise aus Wikidata beziehen (z.B. {{Bauwerk Tabellenzeile}}). Die Einträge fehlen dann nicht wirklich auf Wikipedia-Seite, da sie von Wikidata bezogen werden, dennoch erfolgen in diesen Fällen aktuell falsch positive Meldungen.
  • Die Koordinatenbestimmung aus dem Artikeln funktioniert nicht zuverlässig. Ich habe es noch nicht geschafft, die primary coordinate zu extrahieren.
  • Werden Artikel mehrfach für unterschiedliche Listeneinträge verwendet, dann liefert die Koordinatenabweichung Unsinn.

Fehlermeldungen, Anmerkungen, Ideen, Verbesserungsvorschläge

Bearbeiten

auf der Rückseite.