Benutzer:Reinhard Kraasch/Gemeinden Status/Archiv
Hier fasse ich den Status meiner Arbeiten und Auswertungen an den Gemeindeartikeln und den aktuellen Stand von RKBot zusammen.
Was geschah bisher
BearbeitenAuswertungen auf Basis einer lokalen Mediawiki-Installation
BearbeitenIch habe aus dem letzten Datenbank-Dump die Informationen zu den Gemeindeartikeln zusammengetragen - im Realbestand wurde noch nichts geändert (bzw. höchstens von Hand, wenn mir etwas auffiel).
- Liste der Städte in Deutschland wurde mit dem Bestand abgeglichen, Inkonsistenzen in der Schreibweise von Hand bereinigt.
- Ich habe einen ersten Parser für die Infoboxen gebaut und ausgewertet, was in den Infoboxen so drinsteht. Erste Ergebnisse finden sich hier
- Der Datenbank-Dump ist vom 3.8.2006, leider ist der letzte Dump kaputtgegangen, die Daten sind also ca. einen Monat alt, was einige Diskrepanzen erklärt. Der endgültige Botlauf erfolgt natürlich auf dem real ausgelesenen Bestand und nicht mittels der aus dem Dump gewonnenen Daten. --Reinhard 17:12, 8. Sep 2006 (CEST)
- Testdaten erstellt (s.u.)
Prüflisten
BearbeitenNoch mal zur Klarstellung: es ist für den Botlauf keineswegs erforderlich, die Fehler vorher zu bereinigen. Ich habe lediglich die Gelegenheit, die Daten mal gesammelt zusammen zu haben, zum Anlass genommen, entsprechende Prüflisten zu erstellen. Es sind auch nicht immer die Daten im Bestand, die falsch sind (es ist speziell bei namensgleichen Gemeinden nicht immer einfach, jeweils die richtige Gemeinde zu erwischen).
Noch zu Bearbeiten
Bearbeiten- Liste unplausibler Gemeindeschlüssel --Reinhard 00:44, 8. Sep 2006 (CEST)
- Fehlende Landkreise --Reinhard 20:46, 9. Sep 2006 (CEST)
- Die Liste ist soweit abgearbeitet, außer die Landkreise Donnersbergkreis, Südliche Weinstraße in RLP. Hier sind größere Bearbeitungen notwendig die teilweise in Arbeit sind. --Redline is courtage Schoki 17:54, 15. Sep 2006 (CEST)
- Unplausible Ortskoordinaten --Reinhard 21:08, 11. Sep 2006 (CEST)
- Ich habe mich mal der unplausiblen Koordinaten angenommen. Orte über 100km Differenz sind durch, näheres siehe auf der Seite. --Tobi 15:34, 15. Sep 2006 (CEST)
- Unplausible Ortskoordinaten --Reinhard 21:08, 11. Sep 2006 (CEST)
- Gemeinden ohne "Formatvorlage Stadt" --Reinhard 14:17, 14. Sep 2006 (CEST)
- Gemeinden ohne Angabe des Bundeslands --Reinhard 14:17, 14. Sep 2006 (CEST)
Abgearbeitet
BearbeitenUnplausible Regierungsbezirke --Reinhard 21:52, 9. Sep 2006 (CEST)- Redline is courtage Schoki 18:33, 10. Sep 2006 (CEST)
Unplausible Postleitzahlen --Reinhard 21:56, 10. Sep 2006 (CEST)- Redline is courtage Schoki 17:43, 11. Sep 2006 (CEST)
Gemeinden ohne Kategorie --Reinhard 03:29, 15. Sep 2006 (CEST)- Tobi 15:34, 15. Sep 2006 (CEST)
Noch eine Liste unplausibler Gemeindeschlüssel --Reinhard 14:50, 20. Sep 2006 (CEST)- --Redline is courtage Schoki 19:58, 23. Sep 2006 (CEST)
Tests
Bearbeiten- Testdaten angelegt, jeweils 2 Orte aus jedem Bundesland (ausgenommen die Stadtstaaten): --Reinhard 20:06, 9. Sep 2006 (CEST)
Lfd Nr | Bundesland | Nr BLD | Ausgangsdaten | Ergebnisse | Ausgangsdaten | Ergebnisse |
---|---|---|---|---|---|---|
1 | Schleswig-Holstein | 01 | Steinhorst (Lauenburg) | Steinhorst (Lauenburg) | Oevenum | Oevenum |
2 | Niedersachsen | 03 | Hemmingen (Niedersachsen) | Hemmingen (Niedersachsen) | Vierhöfen | Vierhöfen |
3 | Nordrhein-Westfalen | 05 | Coesfeld | Coesfeld | Horstmar | Horstmar |
4 | Hessen | 06 | Fuldatal | Fuldatal | Otzberg | Otzberg |
5 | Rheinland-Pfalz | 07 | Reuth (Eifel) | Reuth (Eifel) | Kruft | Kruft |
6 | Baden-Württemberg | 08 | Berghaupten | Berghaupten | Asperg | Asperg |
7 | Bayern | 09 | Painten | Painten | Eisenheim | Eisenheim |
8 | Saarland | 10 | Sulzbach/Saar | Sulzbach/Saar | Großrosseln | Großrosseln |
9 | Brandenburg | 12 | Gräben | Gräben | Heideland (Brandenburg) | Heideland (Brandenburg) |
10 | Mecklenburg-Vorpommern | 13 | Warnow (bei Grevesmühlen) | Warnow (bei Grevesmühlen) | Wedendorf | Wedendorf |
11 | Sachsen | 14 | Erlau (Sachsen) | Erlau (Sachsen) | Nossen | Nossen |
12 | Sachsen-Anhalt | 15 | Radis | Radis | Schwemsal | Schwemsal |
13 | Thüringen | 16 | Römhild | Römhild | Korbußen | Korbußen |
Die Ausgangsartikel wurden kopiert, um einen stabilen Zustand zum Testen zu haben und um Bearbeitungskonflikte zu vermeiden. --Reinhard 22:21, 9. Sep 2006 (CEST)
- Die Testdaten haben ihre Schuldigkeit getan und wurden wieder gelöscht. --Reinhard Kraasch 15:37, 26. Nov. 2006 (CET)
Erstellen des Bots
BearbeitenSo, der Bot ist jetzt soweit fertig und wurde ersten Tests unterzogen:
Testablauf
Bearbeiten- Rückstandsloses Entfernen der Tabelle -- erledigt
- Einbau der Townbox-Vorlage mit einfachen Parametern (Bundesland, Landkreis...) -- erledigt
- Test der komplexeren Parameter (Gemeindeart, PLZ, Höhe...) -- erledigt
- Ergebnisse im Detail geprüft und eingearbeitet -- erledigt
- Interne Umsetzung auf dem Gesamtbestand mit Auswertung der Statistiken - überwiegend erledigt
- Neue Testdaten -- erledigt
Derzeitige Arbeitsweise des Algorithmus
Bearbeiten- Die Parameter der Formatvorlage werden analysiert und so gut es geht umgesetzt
- Dabei werden Zusatzinformationen wie "Stand der Einwohnerzahl" "PLZ alt" und "Partei des Bürgermeisters aus der rechten Seite der Tabelle extrahiert und in ein einheitliches Format gebracht. Die Datumsangabe "Stand der Einwohnerzahl" wird entsprechend der Vorlage formatiert.
- Die Koordinaten werden entsprechend den verschiedenen Eingabevarianten zerlegt und in ein einheitliches Format gebracht
- Numerische Daten werden extrahiert und von Tausendertrennzeichen bereinigt, Dezimalkommata werden in Dezimalpunkte umgesetzt, von-bis-Angaben werden vereinheitlicht
- Als Nebenprodukt entsteht eine Fehlerliste von nicht umsetzbaren Parametern (bzw. resultierend aus diversen "Trockenläufen" des Algorithmus die obigen Fehlerlisten, die schon im Vorwege in die Ortsartikel eingepflegt werden können, was dazu führt, dass die reale Fehlerliste kürzer wird).
- Die Karte "Lage von xyz in Deutschland" wird herausgenommen
- Spezialfälle von mehreren Bildern in der Formatvorlage werden wie folgt behandelt:
- Die Bilder werden neben die Formatvorlage gestellt
- Auf die Diskussionsseite wird ein Hinweis geschrieben
- (Das klappt aber nicht, wenn die Karte anders als "xyz in Deutschland" heisst - Beispiel: Eßleben-Teutleben).
- Bezeichnung der Adresse: "Adresse der/des xxx": "Gemeindeverwaltung", "Samtgemeinde" ...
- Die Bezeichnung wird derzeit aus der Art der Gemeinde substituiert - was aber unzulänglich ist, z.B. bei einer Amtsangehörigen Gemeinde steht unter "Art=Gemeinde", bei "Adresse" sollte aber stehen: "Adresse des Amts"
- Hinweis auf der Diskussionsseite:
- Hinweis auf die erfolgte Umstellung (ggf. mit Hinweis auf die Diskussionsseite der Vorlage zur Erklärung derselben)
- Hinweis, welche Parameter nicht übernommen werden konnten
- Bilder, die aus der Formatvorlage herausgelöst wurden.
- Ggf: Bei welchen Parametern Diskrepanzen festgestellt wurden (besser wohl: Fehlerlisten erstellen - wie gehabt)
- M.E. sollte die Diskussionsseite nur im Fehlerfall gefüllt werden, ansonsten sollte der Hinweis in der Zusammenfassungszeile reichen.
Noch offene Fragen
Bearbeiten- Soll die Formatvorlage Stadt in allen "Ortsartikeln" ersetzt werden oder nur in den Artikeln von selbstständigen Gemeinden? (Im Fall von Stadtteilen usw. stimmen die Ergebnisse nicht ganz - siehe Mainz-Lerchenberg). Generell ausgenommen werden sollten m.E. die Stadtstaaten und vielleicht auch noch weitere zu nennende Großstädte - da ist die Tabelle derart überfrachtet, dass es ohne Handarbeit kaum geht.
- Großstädte und Stadtstaaten haben zu Recht abweichende Informationskästen. Diese können gar nicht sinnvoll vereinheitlicht werden, weder durch unsere Infobox noch durch eine andere. --TM 12:37, 19. Sep 2006 (CEST)
- OK, derzeitige Planung: Alle selbstständigen Gemeinden bis auf die Großstädte. --Reinhard
- Besser wäre: Wenn der Bot eine Infobox mit irgendeiner Erweiterung vorfindet, für die kein Konsens besteht (das heißt, für die wir weder „behalten“ noch „löschen“ festgelegt haben), sollte er die alte Tabelle im Artikel lassen. --TM 21:56, 3. Okt 2006 (CEST)
- Na ja, das sind neben den Hauptfällen "Ausländeranteil" und "Region" meist die Zusammensetzung des Gemeinderats, der 2. oder 3. Bürgermeister oder ähnliches - siehe hier. Aus meiner Sicht vernachlässigbar bzw. auf der Diskussionsseite zum Wiedereinpflegen in Form von Fließtext gut aufgehoben. Betrifft aber - wenn man "Region" und "Ausländeranteil" ausnimmt - ohnehin nur ca. 600 von 10000 Gemeinden. --Reinhard Kraasch 22:41, 3. Okt 2006 (CEST)
- In Ordnung. Die Liste mit den Resten ist übersichtlicher, als ich befürchtet hatte. Der Bot sollte das bitte auf die jeweilige Diskussionsseite stellen, damit es in den Fließtext eingearbeitet werden kann. --TM 23:00, 3. Okt 2006 (CEST)
- Das macht er ja schon - siehe die Beispiele, z.B. im Fall "Coesfeld" --Reinhard Kraasch 12:25, 4. Okt 2006 (CEST)
- In Ordnung. Die Liste mit den Resten ist übersichtlicher, als ich befürchtet hatte. Der Bot sollte das bitte auf die jeweilige Diskussionsseite stellen, damit es in den Fließtext eingearbeitet werden kann. --TM 23:00, 3. Okt 2006 (CEST)
- Na ja, das sind neben den Hauptfällen "Ausländeranteil" und "Region" meist die Zusammensetzung des Gemeinderats, der 2. oder 3. Bürgermeister oder ähnliches - siehe hier. Aus meiner Sicht vernachlässigbar bzw. auf der Diskussionsseite zum Wiedereinpflegen in Form von Fließtext gut aufgehoben. Betrifft aber - wenn man "Region" und "Ausländeranteil" ausnimmt - ohnehin nur ca. 600 von 10000 Gemeinden. --Reinhard Kraasch 22:41, 3. Okt 2006 (CEST)
- Besser wäre: Wenn der Bot eine Infobox mit irgendeiner Erweiterung vorfindet, für die kein Konsens besteht (das heißt, für die wir weder „behalten“ noch „löschen“ festgelegt haben), sollte er die alte Tabelle im Artikel lassen. --TM 21:56, 3. Okt 2006 (CEST)
- OK, derzeitige Planung: Alle selbstständigen Gemeinden bis auf die Großstädte. --Reinhard
- Soll die E-Mail-Adresse generell weggelöscht werden oder nur in der Vorlage nicht dargestellt werden?
E-Mail nur behalten, wenn keine Website existiert, sonst generell löschen. Das wurde bereits vor der Entwicklung der Vorlage festgelegt.Korrektur: E-Mail immer löschen. --TM 21:56, 3. Okt 2006 (CEST)
- In relativ vielen Orten findet sich der Parameter "Ausländeranteil". Diesen könnte man (als Blindparameter wie "NUTS" oder "LOCODE") in die Vorlage übernehmen - ob man die Zeile darstellt oder nicht, kann man dann immer noch diskutieren.
- Ich bin völlig ratlos, wie das zu lösen ist. Der Ausländeranteil ist vielleicht bei großen Städten interessant. Die Existenz eines Parameters
Ausländeranteil =
verführt aber dazu, die Information auch bei Dörfern einzubauen, wo sie meist belanglos ist. Das Selbe gilt für die Arbeitslosenquote. Diese gehört meiner Meinung nach in eine Infobox Landkreis. --TM 12:37, 19. Sep 2006 (CEST)
- Ich bin völlig ratlos, wie das zu lösen ist. Der Ausländeranteil ist vielleicht bei großen Städten interessant. Die Existenz eines Parameters
- Generelle Frage: Sollen ergänzbare Informationen (PLZ, Gemeindekennziffer usw.) nachgetragen werden? Meine Datenbestände sind allerdings nicht die allerneuesten, aber in 95 % der Fälle dürften die Ergebnisse stimmen. Was ist besser - fehlende oder mit geringer Wahrscheinlichkein falsche Informationen?
- Die Gemeindekennziffer muss stimmen. Bei der PLZ ist das nicht so tragisch. Es ist allerdings wichtig, dass keine Postleitzahlen von Postfächern und Großkunden in der Infobox landen. --TM 12:37, 19. Sep 2006 (CEST)
- Man kann solche Informationen auch teilweise errechnen bzw. natürlich direkt an der Quelle abgreifen:
- Regierungsbezirk/Landkreis können anhand der Gemeindekennziffer ermittelt werden
- Fehlende Gemeindekennziffern/Regierungsbezirke/Landkreise usw. können automatisch aus [1] ausgelesen und nachgetragen werden (muss natürlich nicht im Rahmen dieser Aktion erfolgen...)
- Was soll mit den ehemaligen Regierungsbezirken geschehen? Generell löschen?
- Nein, warum? Die Wikipedia konserviert das Wissen der Welt, egal ob Vergangenheit oder Gegenwart. --TM 12:37, 19. Sep 2006 (CEST)
- Wenn es in R-P nun mal keine Regierungsbezirke mehr gibt, ist es doch ziemlich sinnfrei, z.B. Damscheid mit dieser Information auszustatten. Oder anders herum: Wenn das eine wirklich wichtige Information ist, dann sollte sie in allen R-P-Artikeln drinstehen und nicht nur bei Damscheid und einer Handvoll anderen. --Reinhard 01:52, 26. Sep 2006 (CEST)
- Ich hatte dich falsch verstanden. Ehemalige Regierungsbezirke müssen natürlich aus der Infobox gelöscht werden, da sie nicht mehr Teil der offiziellen Verwaltungsstruktur sind. --TM 21:56, 3. Okt 2006 (CEST)
- Wenn es in R-P nun mal keine Regierungsbezirke mehr gibt, ist es doch ziemlich sinnfrei, z.B. Damscheid mit dieser Information auszustatten. Oder anders herum: Wenn das eine wirklich wichtige Information ist, dann sollte sie in allen R-P-Artikeln drinstehen und nicht nur bei Damscheid und einer Handvoll anderen. --Reinhard 01:52, 26. Sep 2006 (CEST)
- Was soll mit unplausiblen Informationen (Höhe, Fläche ...) geschehen:
- Fehlerliste erzeugen (wie ja schon geschehen)
- Kommentarlos ersetzen (sofern andere bzw. genauere Informationen im Bestand vorliegen)
- Zur manuellen Nachbearbeitung auf die Diskussionsseite des Artikels stellen
- Ggf.: Kombination aus allen drei Vorgehensweisen?
- Kombination aus ersetzen und einem „bitte überprüfen“-Hinweis auf der Diskussionsseite. --TM 12:37, 19. Sep 2006 (CEST)
Was man noch so alles prüfen könnte
Bearbeiten- Welche Fehlerlisten / Analysen / Plausibilitätsprüfungen werden noch gewünscht bzw. sind erforderlich?
- Vergleich der Beschreibung der Gemeinde im Artikel (xyz ist eine xxx) mit dem tatsächlichen Status (Stadt/Gemeinde...)
- Plausibilität der Geo-Daten (Höhe, Koordinaten)
- Erreichbarkeit der angegebenen Webseite
- Doppelte Georeferenzierung der Artikel (über die Infobox und über die Vorlage:Koordinate Artikel)
- Fehlende Georeferenzierung
- KFZ-Kennzeichen gegen Kreis
Sonstiges
Bearbeiten- Vielleicht mag ja Benutzer:Arcy sein GisWiki-Script so anpassen, dass es optional auch für die neue Infobox passende Werte erzeugt
Überflüssige Lagekarten
BearbeitenDie überflüssigen Lagekarten auf :de wurden gelöscht.
Hier sind vier Listen zu je 500 Karten von denjenigen Karten, die auf Commons liegen und dort gelöscht werden können:
- Aarbergen.png - Karte gutach im breisgau in deutschland.png (500)
- Karte Gutenzell-Hürbel in Deutschland.png - Karte Waal in Deutschland.png (500)
- Karte Wachenroth in Deutschland.png - Lage von Retzstadt in Deutschland.png (500)
- Lage von Reut in Deutschland.png - Würchwitz in Germany.png (249)
Auf den obigen Listen werden die Karten selbst mit abgebildet, wenn das stört, hier noch mal das gleich ohne die Karten (also nur die Links):
- Aarbergen.png - Karte gutach im breisgau in deutschland.png (500)
- Karte Gutenzell-Hürbel in Deutschland.png - Karte Waal in Deutschland.png (500)
- Karte Wachenroth in Deutschland.png - Lage von Retzstadt in Deutschland.png (500)
- Lage von Reut in Deutschland.png - Würchwitz in Germany.png (249)
- Die Karten in dieser Liste werden noch verwendet.
- Ich bin im Augenblick dabei, die Flughafenartikel mit der neuen Infobox zu versehen, diese generiert ebenso wie die Infobox Ort die Lagekarte automatisch aus der Position. Ich habe daher die Seite neu strukturiert. Kümmerst du dich darum, dass diese Karten auch noch gelöscht werden? Dann muss ich nicht so viele LA's stellen. Danke -- Tobi 00:33, 10. Dez. 2006 (CET)
- So, Vorhaben geglückt, alle Flugplätze, die noch eine Karte hatten, verwenden jetzt die neue Infobox, hoffe das die Karten jetzt alle gelöscht werden können. --Tobi 02:53, 10. Dez. 2006 (CET)
- Gibt es dazu eine Kategorie, die man abgrasen kann!? --Reinhard Kraasch 12:25, 10. Dez. 2006 (CET)
- Auf Benutzer:Reinhard Kraasch/Gemeinden/Karten noch verwendet#Bearbeitet findest du die aus deiner Liste abgearbeiteten, allerdings gibt es noch zehn weitere Flughäfen, die eine Karte tragen, allerdings standen sie nicht in deiner Liste, diese werde ich heute abarbeiten, es sind:
Flughafen Essen/MülheimVerkehrslandeplatz Mönchengladbach- Sonderlandeplatz Neuhardenberg
- Flugplatz Würzburg-Schenkenturm
- Flugplatz Varrelbusch
Flugplatz Schmallenberg-RennefeldFlugplatz Krefeld-Egelsberg- Flugplatz Johannisthal
Flugplatz HoherodskopfFlugplatz Hildesheim
- Die Liste ist ja auch nicht als Liste aller vorhandenen Lagekarten zu verstehen, sondern listet nur die Lagekarten auf, die im Rahmen der Infobox-Ort-in-Deutschland-Aktion (möglicherweise) überflüssig geworden sind. Eine mögliche Übersicht über alle Lagekarten könnte man sich mit der Kategorie:GFDL-Bild (OpenGeoDB) verschaffen - da sind aber auch Karten für Bundesstraßen usw. drin. --Reinhard Kraasch 17:12, 10. Dez. 2006 (CET)
Alle Flugplätze und Flughäfen befinden sich unterhalb der Kategorie:Flugplatz, falls also noch was zu tun ist, schreib es mir irgendwo auf, dann füge ich die neue Infobox ein. Sollten die oben erwähnten 10 Grafiken noch wo verwendet werden, sehe ich nach, ob es ne Möglichkeit gibt, sie zu ersetzen, sonst liste ich die Grafiken in den 10 Artikeln sind auch auf Benutzer:Reinhard Kraasch/Gemeinden/Karten noch verwendet#Bearbeitet unter einem neuen Unterpunkt. Ich hoffe, das hilft weiter--Tobi 13:04, 10. Dez. 2006 (CET)
- Soweit die Karten nur auf :de lagen, hab ich sie gelöscht, aber: Das sind doch aber derart wenige Verwendungen, dass sich ein Bot-Einsatz überhaupt nicht lohnt. Wenn die Karten ansonsten nicht mehr verwendet werden und sie nicht auf Commons liegen, stell halt einen Schnelllöschantrag (das macht auch nicht mehr Arbeit, als sie noch mal irgendwo aufzulisten!), für die nicht verwendeten auf Commons kannst du entweder dort den Löschantrag stellen, oder sie auf einer Seite analog zu dieser (aber nicht auf dieser, das bringt alles durcheinander!) sammeln und dann die Seite einem der Commons-Admins wie Benutzer:bdk oder Benutzer:Borheinsieg übermitteln, so dass die dann die Löschungen vornehmen können. Die Karten noch mal auf der Seite Benutzer:Reinhard Kraasch/Gemeinden/Karten noch verwendet aufzuführen bzw. dort nachzutragen, lohnt sich m.E. nicht bzw. das ist doch ohnehin die falsche Baustelle... --Reinhard Kraasch 17:00, 10. Dez. 2006 (CET)
- Ist jetzt dann sowieso zu spät, sind ja fast alle durch, ich hoffe, ich habe dir damit nicht Mehrarbeit gemacht, das war nicht meine Absicht. Ansonsten haben diese Flughäfen jetzt wenigstens die neue Infobox. Was mein Gedanke war, dass der Bot die Flughäfen absucht, damit ich die nicht alle durschauen muss, hätte er dann festgestellt, dass da noch irgendwo die Karte verwendet wird, so hätte man die neue Box einbauen können, aber was solls. Bis bald, vielleicht brauchen wir nämlich für die Box auch mal einen Bot. --Tobi 17:32, 10. Dez. 2006 (CET)