Wikipedia Diskussion:WikiProjekt Georeferenzierung/Archiv/GeoBot
Escapen von \
BearbeitenMal gleich zu Beginn ein kleiner Änderungsvorschlag von mir.Ich hab zwar von Python keine Ahnung, aber es gibt doch sicher eine Anweisung, dass die \ nicht extra escaped werden müssen. Das würde den Code lesbarer und damit besser überprüfbar machen. --ElRakı ?! 14:00, 11. Jul 2005 (CEST)
- es gibt die r"..." strings, aber sind die auch unicode strings? Tatsaechlich bin ich auf die doppel-escapes gekommen, weil in geokoordinaten sichttexten sowohl -'- als auch -"- enthalten sein kann. Wie will man also r"\"" schreiben? Ich denke, einfach hinnehmen, und alles doppeln. GuidoD 14:07, 11. Jul 2005 (CEST)
Verbesserte Pattern
BearbeitenIch hab mir die Pattern mal angesehen, es fehlten ein paar \ und bei den Koordinaten kann bei den Sekunden auch Nachkommaziffern kommen. Das habe ich eingebaut und zusätzlich die Form in der Dezimalstellung.
Was noch zu verbessern wäre, sind die Himmelsrichtungen, ich weiß leider nicht wie bei Python ein entweder, oder im Pattern geschrieben wird. Also eine zusätzliche caoturing group für ([N|S]) bzw ([E|W]). Hm, wobei bei Osten das Problem ist, dass intern E steht, aber O angezigt wird, da weiß ich gerade keine Lösung.
Und dann noch die ganzen Zusätze wie type und region gehören noch hinzugefügt.
u"(Geokoordinate\\|)(\\d+)°\\s*(\\d+)'\\s*N,*(\\d+)°\\s*(\\d+).(\\d+)'\\s*E" : u"\\1\\2° \\3 N, \\4° \\5,\\6 O"
und
u"(Geokoordinate\\|)(\\d+),(\\d+)°\\s*N,*(\\d+),(\\d+)°\\s*E" : u"\\1\\2.\\3° , \\4.\\5°;O"
Bitte noch überprüfen ob ich hier bei den Pattern einen Fehler gemacht habe. Grüße ElRakı ?! 14:48, 11. Jul 2005 (CEST)
- Sieht schon gut aus, du kannst auch gerne am artikeljetzt herumdoktorn. Grundsaetzlich bevorzuge ich "\\s*" statt einfachem leerraum, und replacements mit vielen vielen . Die echte alternative wird mit (A|B) ausgedrueckt, bei zwei einzelzeichen reicht [AB]. Grundsaetzlich handelt es sich um perl regexe, mit fast allen spezialitaeten wie (?dingsda).
- Bei der Frage E in O mapping - einfacht nicht machen. Stattdessen zwei Patterns anlegen, einmal fuer "W" und einemal fuer "O". Wenn pattern dann auf ein "O" trifft, kann es im koordinatenblock ja "E" eintragen, bei "W"-pattern bleibt es "W" - aber hart einkodiert. Im replace.py muesste man beispiele finden, wie mehrere pattern-replace in einen --fix:type gepackt werden. Nachschauen! GuidoD 14:58, 11. Jul 2005 (CEST)
Pattern: de != de
BearbeitenIch halte es nicht für schlau, alle type:PPL stur mit "region:de" zu schmücken - schliesslich umfasst de.wikipedia.org deutschsprachigen Inhalt, und es ist sehr wahrscheinlich, dass auch Koordinaten mit "type:PPL" vorhanden sind, die nicht in Deutschland liegen. Wenn man die "region" sauber machen will, sollte man die Koordinaten mit präzisen Daten der Landesgrenzen vergleichen. Nonanet 17:23, 18. Jul 2005 (CEST)
- sorry, das war mein erstes pattern, das spezifisch zum aendern jener PPL verwendet wurde, die ich in Kategorie:Ort in Brandenburg höchstselbst eingesetzt hatte. Caveat emptor, GuidoD 17:34, 18. Jul 2005 (CEST)
- alles klar - war kein Vorwurf, lg Nonanet 17:52, 18. Jul 2005 (CEST)