Benutzer Diskussion:Michael Schönitzer (WMDE)/Sortierschlüssel

Letzter Kommentar: vor 4 Jahren von PerfektesChaos in Abschnitt hier ist's so tot

Erste Diskussion

Bearbeiten

@PerfektesChaos: Es tut mir leid, dass ich mich nach dem Angebot bei der UCA-Umstellung zu helfen jetzt längert nicht mehr gerührt habe – mir kamen persönliche Dinge dazwischen. Entschuldigung, dass das solange gedauert hat. Hier jetzt endlich mal ein ganzer Satz Datenbank-Abfragen zu den Sortierschlüsseln. Ich habe Quarry verwendet, damit kann jeder die Abfragen aktualisieren und einfach forken und anpassen. Man hat so eine Statistik und eine Wartungsliste ähnlich der von Schnark.

Ich war mir nicht sicher, was genau für Abfragen gebraucht werden können – schaust du mal, was noch fehlt, dann kann ich die nachliefern. Trickreich ist natürlich die vollständige Beantwortung der Frage "Welche Arten unkonventioneller Sonderzeichen gibt es in Sortierschlüsseln" – da bin ich grad noch dran. Ich hoffe die Listen sind nützlich! -- Liebe Grüße, Michael Schönitzer (WMDE) (Diskussion) 02:31, 8. Jan. 2017 (CET)Beantworten

Schönen Dank.
Ich versuche mal, anhand des heutigen Standes etwas zu präzisieren.
  • Verständnis-Rückfragen:
    • „Numerische Doppelpunkt-Codes“ + „Mit Zahl davor“:
      • Beispiel benötigt.
    • „Raute vor einem Artikel“ – aber dann keine Ziffern?
      • Buchstabe nach Raute wäre mutmaßlich Murks.
      • Ziffern/Doppelpunkt fallen unter bekannte Bot-Läufe.
      • Sehen die Kats so aus, dass sich da jemand was bei gedacht hatte?
    • „Komma vor einem Artikel: 1.205“
      • Ernsthaft? Hat das in der Kategorie einen Sinn, oder ist das Schrott?
  • Definitive Fehler:
    • „Pipe: 132“ – C&P-Bruch; müssten alle korrigiert werden.
    • „Einige nicht-druckbare Zeichen: 19“ – müssten alle korrigiert werden.
    • „Steuerzeichen: 4“ – müssten alle korrigiert werden.
  • Legitime Syntax:
    • Numerische Doppelpunkt-Codes / Mit Raute davor
    • Ausrufezeichen
  • Genauere Analyse anhand von Stichproben:
    • Minus, Schrägstrich, Punkt, Apostroph, Gedankenstrich, einzelner Doppelpunkt, Tilde, Ampersands – können unschädlich sein, oder in den Kats hatte sich jemand was dabei gedacht.
  • Bot-Läufe:
    • „Numerische Doppelpunkt-Codes“ egal ob mit oder ohne Raute – bekannt.
Die weiteren Analysen sollten auf den ANR fokussieren; in anderen NR nur Syntaxfehler wie Pipes und nicht-druckbare Zeichen zu berichtigen.
WP:Quarry ist eine scharfe Idee.
  • Quarry und die Labs kennen nicht den Quellcode der Seiten.
  • Deshalb hatte ich die nicht auf dem Schirm.
  • Aber sie kennen die Kats und Sortierschlüssel.
  • Und sie reagieren aktueller als die Dumps.
  • Und sie sind syntaktisch, also Quelltexttreffer aus nowiki und Kommentaren werden ignoriert / Resultate von Vorlageneinbindungen werden einbezogen.
LG --PerfektesChaos 13:53, 10. Jan. 2017 (CET)Beantworten
Bezüglich der Beispiele: Wenn du den Links folgst findest du – außer bei den Querrys mit sehr vielen Resultaten – die Tabellarische Auflistung (Artikelname, Kategorie, Sortierschlüssel).
  • „Numerische Doppelpunkt-Codes“ + „Mit Zahl davor“ – sind fast alles DIN-Normen: Bsp: DIN 11024
  • „Raute vor einem Artikel“ – vielleicht ein Missverständnis? Mit 'Artikel' meine ich die Wortart, also Der, Die, Das, Ein…
  • Alle Zahlen im Abschnitt „Sonderzeichen, die im Sortkey nicht aber im Seitentitel vorkommen“ beziehen sich bereits nur auf den ANR.
LG -- Michael Schönitzer (WMDE) (Diskussion) 17:55, 10. Jan. 2017 (CET)Beantworten
Ja, die erste Antwort kam binnen einer Stunde, und ich hatte noch nicht alles gesehen.
Die DIN-Kategorie ist exakt ein Fall, nach dem wir fahnden.
'Artikel' als Wortart, also Der, Die, Das, Ein… – muss man einem Doofen ja mal sagen, ich hatte erst mal nur die umseitige Liste durchgesehen.
Die ersten Defekte schmeiße ich grad raus.
LG --PerfektesChaos 18:15, 10. Jan. 2017 (CET)Beantworten
@PerfektesChaos: Habe gerade nochmal etliche interessante Querries hinzugefügt. Siehe hier und hier. Das sind doch noch einige Sonderformen, auf die man bei der UCA-Umstellung aufpassen muss. Ich wäre jetzt von meiner Seite aus fertig damit, aber wenn du noch Fragen dazu oder weiteren Bedarf für Abfragen hast, ping mich an! -- Michael Schönitzer (WMDE) (Diskussion) 18:32, 20. Jan. 2017 (CET)Beantworten
@Michael Schönitzer (WMDE): Herewith done. Greetings --PerfektesChaos 18:42, 20. Jan. 2017 (CET)Beantworten

Mehr Diskussion

Bearbeiten
  • Schönen Dank mal wieder!
  • Ich habe leider einige offene Baustellen am Hals; versuche dies hier parallel mitzumachen, komme aber nicht zum systematischen Durcharbeiten aller Treffer.
  • Aktualisierung:
    • Quarry erlaubt mir wohl kein Update, dazu müsste ich forken, mag ich nicht alles doppelt anlegen.
    • Deshalb bitte folgende updaten:
      • davon Pipe am Anfang  Ok
      • Steuerzeichen  Ok
  • Eine Quarry kann enfallen
    • „HTML-Entities in Schlüsseln“ – das kannst du mittels Quarry nie sehen. Gültige Entities im Quelltext werden in den zugehörigen Zeichenwert umgewandelt und landen in dieser Form in den abhängigen Tabellen.  Ok
  • Neue Quarry
  • Umseitig bitte folgende umgliedern:  Ok
    • Zwischenüberschrift „Fehlerhaft, eliminieren“
      • Pipe, und auch am Anfang. Immer Schrott.
      • Steuerzeichen
      • „Einige nicht-druckbare Zeichen“
      • HTML-Tags in Schlüsseln
    • Zwischenüberschrift „Mutmaßlich legitim“
      • Runde Klammern
      • beginnend mit einem Leerzeichen
      • Raute vor einem grammatikalischen Artikel
      • Komma vor einem grammatikalischen Artikel
    • Zwischenüberschrift „Allgemeine Statistik“
      • Die ersten vier.
    • Rest bleibt erstmal als unsortierter Batzen zur Aufarbeitung oben stehen.
  • Mit Nicht-ANR müsste man sich auch beschäftigen; die sind genauso betroffen, interessieren mich allerdings nur peripher, sollten aber möglichst nicht völlig verwüstet werden. Hauptzwek ist die Erstellung einer Enzyklopädie, und im Meta-Bereich gibt es ggf. persönlich Verantwortliche, die Mist gebaut hätten, oder für eine Kategorie Zuständige.
  • Ping in einer neu angelegten Seite geht wohl nicht, weil aus der Diffpage zur vorherigen Version ermittelt.

Schönes Wochenende --PerfektesChaos 18:42, 20. Jan. 2017 (CET)Beantworten

Erledigt. Du kannst natürlich auch gerne selbst auf der Vorderseite editieren. Querries neu laufen zu lassen kann ich jeder Zeit machen. Vielleicht haben ja auch andere Wikipedianer wie Benutzer:Leyo und Benutzer:Schnark Interesse mit zu arbeiten!? -- Michael Schönitzer (WMDE) (Diskussion) 14:37, 21. Jan. 2017 (CET)Beantworten
Ich werde mitarbeiten, aber am besten sollte man noch etwas mehr „Werbung“ dafür machen.
Die Fehler mit der Kategorie:Emissionsnebel im NGC-Katalog müssten von der Zeile
{{#if:{{Boolandnot|{{{NGC|}}}|{{NAMESPACE}}}}|[[Kategorie:Emissionsnebel im NGC-Katalog|{{#expr: floor({{{NGC|0}}}/1000)}}{{#expr: {{{NGC|0}}} mod 1000}}]]}}
in Vorlage:Infobox Emissionsnebel verursacht werden, aber mir ist unklar, wie das korrigiert werden müsste. --Leyo 23:34, 21. Jan. 2017 (CET)Beantworten
@Leyo: Äh – bei welcher quarry bzw. welchem Kriterium bist du denn gerade?
@Michael Schönitzer (WMDE): Bitte mal die „ohne DIN“ ausbauen zu: −Kategorie:DINKategorie:Europäische NormKategorie:IEC-Norm
LG --PerfektesChaos 11:15, 22. Jan. 2017 (CET)Beantworten
@Mfb: Könntest du mal aushelfen? In der Vorlage:Infobox Emissionsnebel müsste um die oben erwähnte Sequenz nach {{#if:{{Boolandnot|{{{NGC|}}}|{{NAMESPACE}}}}| ein #iferror gelegt werden, dann eine vernünftige Fehlermeldung und Wartungskat ausgelöst werden, falls dieser #expr Bruch liefert, und wenn kein Fehler dann die Kat nochmal mit dem Sortierschlüssel. Wahrscheinlich müsste man testweise nur herausfinden, ob NGC eine gültige Zahl ist und sich damit was einfaches anstellen ließe, Null addieren oder so. Wahrscheinlich in allen Namensräumen sinnvoll. Womöglich gäbe es auch noch mehr in dieser Vorlage zu tun. Habe grad ein Dutzend Baustellen auf. LG --PerfektesChaos 13:42, 22. Jan. 2017 (CET)Beantworten
{{iferror:{{{NGC|}}}+1|Wartungskat und Standardkategorie|alles was jetzt dort steht}}? Aber innerhalb des äußeren if. Ein leerer Parameter kann ggf. getrennt abgefangen werden. Setzt es auf die Vorlagenwerk statt wenn es mehr Diskussion benötigt, dann schaue ich mir das bei Gelegenheit an. --mfb (Diskussion) 16:51, 22. Jan. 2017 (CET)Beantworten
Ja, so irgenwie. Mach einfach, was du für richtig hältst, ich weiß es auch nicht besser und hab mir das Dings nicht näher angeguckt. Kannst auch TemplatePar verbauen; Hauptsache die Fehlermeldung wird nicht still und leise in den Sortierschlüssel gehaucht. LG --PerfektesChaos 19:33, 22. Jan. 2017 (CET)Beantworten

Februar

Bearbeiten

@PerfektesChaos: Kleine Ankündigung: Ich werde vom 2.2 bis zum 22.2 (bis auf evtl. am 10.2) nicht erreichbar sein (aka Urlaub) und somit in der Zeit keine neuen Queries schreiben können. Wenn ihr davor noch was brauchst, müsst ihr es mit heute oder morgen sagen. -- Michael Schönitzer (WMDE) (Diskussion) 15:42, 31. Jan. 2017 (CET)Beantworten

@Michael Schönitzer (WMDE):
  • Erstmal sind wir versorgt, danke.
  • Schönen Urlaub soweit.
  • Für den ganz großen Umschwung mit Kurier-Artikel und Bot-Lauf und Personendaten peilen wir mal ohne Hektik den März an.
  • Nebenbei: Warst du der hier gewesen?
LG --PerfektesChaos 09:25, 1. Feb. 2017 (CET)Beantworten
Ja, war ich – wollte einen Bearbeitungskonflikt erzeugen um Screenshots von der neuen Bearbeitungskonfliktseite zu machen. Hab ich dich mit meinen Edits gestört? Dann tut es mir leid! -- Michael Schönitzer (WMDE) (Diskussion) 11:11, 1. Feb. 2017 (CET)Beantworten
Du hast nicht gestört, sondern Sichterrechte bekommen und bist dort jetzt Bestätigter Benutzer.
Das ist Routineverfahren, falls in der völlig unabhängigen BETA-Welt jemand aufschlägt, dessen Benutzername aus der echten WMF bekannt ist.
Gestern war auf BETA eine Anmeldung mit dem Nick eines hiesigen Admins und Oversighters, der auf der dort eingerichteten Benutzerseite sogar auf den hier Ansässigen verlinkt hatte. Ist jetzt infinit.
LG --PerfektesChaos 12:14, 1. Feb. 2017 (CET)Beantworten
@PerfektesChaos, Leyo: Bin wieder da. Wie soll es den weiter gehen? -- Michael Schönitzer (WMDE) (Diskussion) 00:12, 3. Mär. 2017 (CET)Beantworten
Vielleicht würde sich ein Aufruf unter WD:B/A oder ein Kurier-Artikel lohnen, um Mitstreiter zu gewinnen. --Leyo 00:31, 3. Mär. 2017 (CET)Beantworten

  • Michael hatte ja wohl schon vor einigen Wochen allen auf die Disk geschrieben, die sich das Feature gewünscht hatten; mit praktisch Null Erfolg in der Kernaufgabe.
  • Ein Kurier-Artikel über ungelegte Eier wäre fatal. Das würde genau die falschen Leute auf den Plan rufen, Erwartungen wecken, Zeitdruck schaffen (warum ist es denn immer noch nicht fertig) und am Thema vorbei wirre Diskussionen über Gott und die Welt eröffnen, die dann noch mehr Zeit und Nerven und Kraft rauben, als dass sie irgendwas voranbrächten. Wenn erstmal das Kategorieprojekt anfängt zu philosphieren, dann ist es auf Jahre vorbei – das hatten wir 2012 schon mal in gleicher Situation; da hatte das Feature in geringerem Umfang bereits kurz vor der Einführung gestanden und wurde abgeschossen.
  • Die Bot-Betreiber hatten es auch einen Monat unbearbeitet rumzustehen: WP:B/A#Sortierschlüssel vereinfachen – seit einem Vierteljahr.
  • Gebraucht würden Leute, die auf Anhieb wisssen, was zu tun ist, und das dann auch konstruktiv ausführen, und Zeit dazu haben, es wirklich zu tun. Und davon haben wir nicht viele.
  • Wenn man erstmal jemand erklären muss, worum es ginge, und dafür Zeit und Energie investieren muss, und die es dann sowieso nicht hinbekommen werden, dann ist das kontraproduktiv und verzögert noch weiter.
  • Bei mir ist das eine Aufgabe unter einem Dutzend mit hoher Priorität, also keiner Priorität. Und die Zeitabschnitte am Tag, in denen ich geistig in der Lage bin, mit sowas strategisch zu arbeiten, sind eng begrenzt.
VG --PerfektesChaos 09:31, 3. Mär. 2017 (CET)Beantworten
Wurden diese Benutzer ebenfalls angeschrieben? --Leyo 12:07, 3. Mär. 2017 (CET)Beantworten

Hab diese Seite jetzt auf der Beobachtungsliste. Was wäre denn für einen Botbetreiber ungefähr zu tun? Die drei umseitigen Punkte zu absehbaren Botläufen? Im übrigen scheinen mir die Quarry-Abfragen nicht vollständig zu sein, da sie nur die Sortierschlüssel auswerten, die direkt mit einer Kategorie verknüpft sind, aber nicht die generell per Defaultsort vergebenen. Oder täusche ich mich da? -- hgzh 12:09, 3. Mär. 2017 (CET)Beantworten

Nein, sofern nicht anders vermerkt sollten die Quarry-Abfragen beides einschließen: Defaultsort und Einzeleinsortierung. -- Michael Schönitzer (WMDE) (Diskussion) 15:55, 4. Mär. 2017 (CET)Beantworten
  • Was umseitig unter „Noch zu analysieren“ steht, muss untersucht werden, ob daraus notwendige Bot-Ersetzungsregeln abzuleiten wären, oder ob es unbedenklich ist.
    • Besser, man überlegt sich das vorher, als hinterher unter einer Flut von Beschwerden zusammenzubrechen und hastig unkoordiniert irgendwas zusammenzuflicken.
    • Es geht also darum, Bot-Regeln zu ermitteln, die während des Umstellungsvorgangs eingepflegt werden, um unerwünschte Auswirkungen von vornherein zu vermeiden.
  • Ziel ist es, in einem großen Aufwasch einmalig während einer Woche die bisherigen Regeln umzustellen und die Autoren Neues lernen zu lassen und am Ende der Umstellungswoche wieder alles stabil in neuen Gleisen zu haben; aber jetzt mit viel weniger Elementen und weniger Syntax und weniger Regeln.
  • Eine Bot-Umstellung würde ohnehin immer auf Standard- und Einzelsortierungen gleichermaßen angewendet werden.
    • Wenn bei der Analyse ein regelmäßiges Problem entdeckt wird, ist es letztlich egal, in welcher Syntax.
  • Die neue Doku steht hier.
  • Gleichzeitig werden bei einer Dreiviertelmillion Artikel über Personen die Standardsortierungen überflüssig.
    • Das hatte ich im November schon mal fertig gehabt.
    • Weil aber für ein paar Dutzend Personen, bei denen römische Zahlen vorkommen, die aus dem Rahmen normaler Fürsten und Päpste fallen, und die ich per Einzelfalllösung abhaken wollte, mir eine irrsinnig komplizierte weltumfassende algorithmische Allgemeinlösung aufgezwungen wurde, die dann doch wieder einzelne Personen namentlich vom Algorithmus ausnehmen muss, geriet dieser Zweig für mehrere Monate ins Stocken, und ist noch nicht erprobt integriert. Das muss ich aber allein machen und bräuchte dafür mal einige Zeit Ruhe am Stück.
  • Der Job hier ist nicht für jeden, sondern Botties, TWS, VWS und in der Tat Syntaxkorrektur. Die Aktiven dort sind aber auch alle gut ausgelastet und in Personalunion auf mehreren Hochzeiten zugange; kämen dafür aber selbständig zurecht.
  • Akut nebensächlicher Beifang sind die umseitig als Fehlerhaft usw. identifizierten Artikel; wer zu anderem zu müde ist, mag da was flicken und die quarry nullen lassen.
LG --PerfektesChaos 13:52, 3. Mär. 2017 (CET)Beantworten

Ausrufezeichen und Raute

Bearbeiten
  • Ausrufezeichen (!) werden, seit führende Leerzeichen im Sortierschlüssel (und der Sortierschlüssel „ “) möglich sind, nicht mehr für Hauptartikel verwendet, sondern für Listen, damit die direkt untereinander stehen – und Liste bleibt Liste, auch in mehreren Kategorien.
  • Die Raute (#) vor Buchstaben dient in WP:Objektkategorien dazu, Artikel, die nicht das Kriterium „… ist ein …“ erfüllen, sondern Grundbegriffe der Kategorie erläutern, direkt untereinander unterhalb des Hauptartikels (mit Sortierschlüssel „ “) zu versammeln.

-- Olaf Studt (Diskussion) 21:38, 26. Apr. 2017 (CEST)Beantworten

Ah, danke, wervoller Hinweis. VG --PerfektesChaos 21:57, 26. Apr. 2017 (CEST)Beantworten

Hackathon-Projekt

Bearbeiten
verschoben von Benutzer_Diskussion:Michael_Schönitzer_(WMDE)

Hi Michi, ich hatte schon per E-Mail mit Birgit per Mail gesprochen. Es ging um dieses hübsche Projekt, was man im Rahmen des Hackathons vorantreiben oder sogar finalisieren könnte. Ich habe ein fertiges Bot-Framework, das ich relativ easy für die Botläufe einsetzen könnte. Habe mich erst kürzlich eingelesen in die Problemstellung, allerdings scheint ein Großteil der Arbeit in (automatisierten?) Analysen zu bestehen. Kannst du mir vielleicht ein kurzes Update geben, welche Fortschritte es zuletzt gab, und inwiefern ich Unterstützung leisten könnte? Viele Grüße! --FNDE 21:37, 26. Apr. 2017 (CEST)Beantworten

Hi FNDE! Freut mich, dass du auf den Hackathon kommst und Interesse an dem Projekt UCA-Umstellung hast. Ich werde auch auf dem Hackathon sein und kann das dort mir dir zusammen vorantreiben. Ich pinge mal @PerfektesChaos: an, denn der kennt sich am besten damit aus und hat das federführend vorangetrieben. Mein Stand ist der folgende (mann möge mich korrigieren, wenn ich falsch liege): Die Umstellung auf UCA-Sortierung kann durch die Zuständigen bei der Foundation jederzeit "auf Zuruf" erfolgen (etwas Vorlauf wäre aber auch nicht verkehrt, die haben ja schließlich auch einen Kalender). Möglicht zeitgleich zu Umstellung sollten die ersten Botläufe geschehen und bereits etwas davor sollten die Wikipedianer über den Kurier informiert und die Infoseiten geupdated werden. Bei den Botläufen gibt es im Grunde drei Arten:
  1. Änderungen die notwendig werden damit Dinge nach der Umstellung nicht falsch einsortiert werden. Diese sind die wichtigsten und sollten möglicht zeitnah zur Umstellung erfolgen.
  2. Änderungen die nicht mehr benötigte Sortierschlüssel entfernen (Zum Beispiel Einsortierung unter 'U' statt 'Ü'). Diese machen nichts kaputt, können also in Ruhe nach der Umstellung erfolgen
  3. Sortierungen die sowohl mit als auch ohne UCA fehlerhaft sind. Diese könnte man auch schon vor der Umstellung korrigieren.
Drei ganz konkrete Botläufe hat PerfektesChaos auf der Seite ja schon als Regex gelistet (die mann auf die Sortierschlüssel in allen drei Varianten anwenden muss). Was wir auf jeden Fall in Wien machen können ist diese Botläufe vorzubereiten und auf testwiki zu testen und am besten so, dass wir weitere Regexen nur noch einfügen müssen, sobald klar ist welche anstehen. PerfektesChaos hat sich auch schon Gedanken dazu gemacht, in welcher Reihenfolge man die Änderungen machen sollte um keine Beobachtungslisten zu überfüllen und dennoch zügig voranzukommen. @PerfektesChaos: Sieht's du weitere Dinge die wir angehen können? Grüße, Michael Schönitzer (WMDE) (Diskussion) 13:05, 27. Apr. 2017 (CEST) PS: Wir sollten die inhaltliche Unterhaltung vermutlich wieder auf der Unterseite fortführen, damit das nicht zu sehr zerstreut ist und alle die daran Interesse haben davon mitbekommen.Beantworten
Was den Punkt 2. angeht:
  • Mit der gleichzeitigen automatischen Generierung der Personen-Standardsortierschlüssel werden über eine Million Standardsortierschlüssel überflüssig.
  • Also in jedem zweiten Artikel; 90 % aller Verwendungen.
  • Wir wissen aus der Operation „Defekte Weblinks“, dass wir rund 1 Monat je 100.000 Artkel benötigen. Also zehn Monate dafür.
  • Diese Änderung ist rein kosmetisch und hat beim momentanen Verhalten der Wiki-Software absolut keine Wirkung nach außen.
  • Die beobachtenden Autoren werden euch auf kleiner Flamme rösten, wenn täglich mehrere Dutzend Null-Edits über ihre Beos gehen (manche kontrollieren die Bot-Aktivitäten) und die Versionsgeschichten vollmüllen, und das fast ein Jahr lang.
Wenn ich schon grad beim Thema bin und nicht auf der richtigen Unterseite, lade ich hier gleich noch was ab:
Es hängt momentan an der Personen-Sortierung; die hatte ich im November schon mal einsatzbereit gehabt, musste sie aber nach einer Intervention und Zulieferung eines übermäßig komplexen Algorithmus zu Weihnachten neu aufbauen und mich erstmal wieder komplett neu einarbeiten.
LG --PerfektesChaos 13:30, 27. Apr. 2017 (CEST)Beantworten
@PerfektesChaos, Michael Schönitzer (WMDE): Hallo ihr beiden, danke für die Antworten. Daraus ergeben sich für mich folgende Fragen bezüglich der Vorbereitung.
  1. Wird es eine strukturierte Liste geben mit allen betroffenen Artikeln, wo wir nur noch mit Regex drüber gehen müssen? Wenn ja, würde ich eine MySQL/SQLite-Tabelle hübsch finden.
  2. Wollen wir uns auf Phabricator ein Projekt anlegen um die einzelnen Aufgaben übersichtlich darzustellen?
  3. Brauch der Bot für diesen Aufgaben erweiterte Rechte, z.B. bei halbgesperrten Artikeln? Vielleicht sollte man da vorab mal prüfen, wie viele Fälle davon betroffen sind.
Viele Grüße --FNDE 17:02, 27. Apr. 2017 (CEST)Beantworten
ad 1.) Der Plan ist umseitig bereits beschrieben:
  • „Eine Quarry kann für den Botbetreiber erstellt werden, die die unique CSV-Liste der pageid in geeigneter Vorsortierung verfügbar macht.“
  • Heißt: Ein Bot bekommt eine Liste von Seiten-ID, und auf diesem Seiteninhalt zu jeder pageid sind dann alle bekannten Aktivitäten durchzuprobieren. Wenn sich dadurch was geändert hat, dann abspeichern.
ad 2.) Da niemand außer uns (deWP) hier über die Angelegenheit kommuniziert und Phabricator viele deWP-Angehörige von der Kommunikation aussperrt: Das brächte nichts, und es schadet nur. Ein gigantisches Aktivitätsdiagramm für eine doch sehr sehr triviale Aufgabe ist überflüssig und verursacht mehr Zusatzarbeit zur Konfiguration und Einarbeitung, als dass es irgendwas einsparen könnte.
ad 3.) Gewöhnlich haben schreibende Bots Sichterrechte und können dreiviertelgeschützte Seiten bearbeiten, vollgeschützte Seiten werden traditionellnicht bearbeitet, weil grad Edit-War oder sowas und das dann alles durcheinanderbringt.
LG --PerfektesChaos 17:56, 27. Apr. 2017 (CEST)Beantworten
Top, dann fang ich schon mal an den Bot dafür einzurichten. Dann könnte man beim Hackathon in Wien schon ein paar Testläufe mit Dumps machen. Beste Grüße --FNDE 20:13, 28. Apr. 2017 (CEST)Beantworten
Legst du ein Phabricator-Ticket für die Session auf dem Hackathon an? Die Organisatoren wollen für jedes geplante Projekt ein Ticket zur Organisation haben. Kannst mich auch gleich als Subscriber hinzufügen. Du kannst auch Unterticktes für die verschiedenen am Hackathon anfallenden Arbeiten anlegen – wir müssen nur wie PerfektesChaos auch schreibt auspassen, dass die Kommunikation über das "Projekt UCA-Umstellung" als solche hier in der Wikipedia bleibt um niemanden auszuschließen. -- Michael Schönitzer (WMDE) (Diskussion) 16:04, 29. Apr. 2017 (CEST)Beantworten
Eine Idee die mir grade kam: um die Autoren mit der Vielzahl an Einträgen auf ihrer Beobachtungslist weniger zu nerven, könnten wir (für wer es will) ein CSS/JS-Snipsel anbieten, dass Änderungen von diesem Bot auf der Beo ausblendet. Kommunizieren könnten wir das u.a. in dem Kurier-Artikel, denn es beim start des Bots eh geben soll. Was meint ihr? -- Michael Schönitzer (WMDE) (Diskussion) 16:11, 29. Apr. 2017 (CEST)Beantworten
Sind ja voraussichtlich nur 50.000 Artikel, also zwei Wochen, da geht das schon.
Da vorgewarnt wird, können Überempfindliche sich für die zwei Wochen mal alle Bots ausblenden. Die meisten, aber nicht alle, haben die standardmäßig und aus Interwiki-Zeiten draußen, aber einige wollen die Bots überwachen.
Benutzer:PerfektesChaos/js/listPageOptions kann einzelne Bots selektiv ausblenden.
Normales CSS geht nicht, weil der Selektor (Bot-Nick) innendrin steckt, aber die gesamte Zeile verschwinden soll.
LG --PerfektesChaos 16:27, 29. Apr. 2017 (CEST)Beantworten

Details zum Zeitraum

Bearbeiten

Kurze Verständnisfrage zu den 50.000, ich zitiert dich dafür mal aus WP:Bots/Anfragen, @PerfektesChaos:

Details klären; etwa dass in einem Aufwasch auch 700.000 Personenschlüssel entfallen können.

Steht das nicht mehr zur Debatte? Wenn wir die ebenfalls mit behandeln, dauert das ca. 3 Monate, sofern der Bot 24/7 läuft. Zu diesem Zweck könnte man tatsächlich über ein JS-Snippet nachdenken. @Michael Schönitzer (WMDE): ich kümmer mich drum im Phab. --FNDE 17:47, 30. Apr. 2017 (CEST)Beantworten

(nach BK)
Das ist ein Missverständnis.
  • „Können entfallen“ bedeutet: Muss nicht mehr im Quelltext des Artikels stehen, funktioniert aber trotzdem.
  • Die roundabout eine Million überflüssiger Schlüsselanweisungen verbleiben trotzdem bis auf Weiteres im Quelltext der Artikel.
  • Es muss sie niemand mehr neu einfügen.
  • Sie richten auch keinen Schaden an, solange MediaWiki nicht darüber schwerstens meckert.
  • Bots und Skripte, die überflüssige Standardsortierungen bemerken, können sie anlässlich wirksamer Aktivitäten nebenbei entfernen; so auch zufällig menschliche Bearbeiter.
Oben zu Punkt 2 hatte ich mich dazu doch eigentlich bereits geäußert.
24/7 ist egal; die Stundenleistung von Bots ist gedrosselt.
LG --PerfektesChaos 18:03, 30. Apr. 2017 (CEST)Beantworten
Alles klar, hatte ich tatsächlich falsch verstanden. Dann sollte es passen, 2 Wochen "Stress" in der Beo-Liste bei 50k Artikeln sollte keine Probleme bereiten. --FNDE 18:11, 30. Apr. 2017 (CEST)Beantworten

Einrichtung des Bots

Bearbeiten

Hi @PerfektesChaos: Michael und ich waren fleißig, der Bot steht jetzt soweit, das heißt: die Aufgaben unter Absehbare Botläufe könnten zeitnah umgesetzt werden. Hast du in dieser Sache noch Anregungen? Ansonsten könnte das die Tage im Kurier angekündigt und durchgeführt werden. Eine Trockenübung in einem Testwiki würden wir im Vorfeld nochmal durchführen. Dankeschön vorab und beste Grüße! --FNDE 15:45, 20. Mai 2017 (CEST)Beantworten

Es fehlt weiterhin die parallel stattfindende Umstellung der Personendaten; und die Umstellung der Projektseiten usw. geht davon aus, dass die Standardsortierschlüssel in rund 90 % aller momentanen Fälle wegfallen können.
Aber wenn du dich grad eingefuchst hast, lies dich doch mal in Hilfe:Tabellen/prettytable ein und bau deinen Bot dahingehend aus, dass er in den narrensicheren Fällen ohne optische Veränderungen wikitable ersetzen kann.
Ach ja, und umseitg stehen noch 14.000 Seiten, deren Auswirkungen auf einen Bot-Lauf noch überhaupt nicht erarbeitet wurden, und die bislang absehbaren Botlauf-Regeln noch erweitern könnten.
Wohlgemerkt: Jede Seite wird vom Bot nur genau einmal editiert und führt alle Umstellungen gleichzeitig aus.
Heißt: Bei einem Artikel über eine Person, die aus anderen Gründen ins Netz ging, wird der Standardsortierschlüssel gleich ganz entfernt.
LG --PerfektesChaos 15:57, 20. Mai 2017 (CEST)Beantworten
Hi @PerfektesChaos:, danke schon mal. Bei den Artikel aus der Rubrik Noch zu analysieren wissen wir ehrlich gesagt nicht, inwiefern wir das einarbeiten können, bzw. ob es überhaupt Sinn macht. Da gibts offenbar tausende Einzelfälle. Zu den anderen Punkten:
  • die Ersetzung von prettytable wird intergriert
  • außerdem überprüft der Bot ob die Vorlage Personendaten vorhanden ist. Wenn dem so ist, wird der Sortierschlüssel einfach entfernt.
Schöne Grüße --FNDE 16:31, 20. Mai 2017 (CEST)Beantworten
Bevor irgendwas auf eine andere Behandlung von Sonderzeichen (die ja mit UCA verbunden ist) umgestelt werden kann, muss schon noch aufgeklärt werden, welche Konsequenzen das für die fraglichen 14.000 Seiten hat. Vielleicht meist keine, vielleicht muss das in weitere Bot-Regeln eingearbeitet werden.
LG --PerfektesChaos 17:31, 20. Mai 2017 (CEST)Beantworten
Die Abfragen auf der Vorderseite müssten mal aktualisiert werden, es ist frustrierend, wenn man Artikel aufruft und feststellt, dass das Problem schon behoben ist. 92.75.202.24 17:51, 20. Mai 2017 (CEST)Beantworten
Ich habe alle relevanten Querries (Querries mit unter ~1000 Resultate) neu submited. Sollen in kürze aktuell sein. Für das updaten der Zahlen auf der Vorderseite habe ich im Moment leider keine Zeit. -- Michael Schönitzer (WMDE) (Diskussion) 19:48, 20. Mai 2017 (CEST)Beantworten
@PerfektesChaos: Ich kenne die Auswirkungen der Umstellung nicht im Einzelnen, aber fest steht folgendes: diese 14.000 Seiten könnten wenn überhaupt nur manuell oder halbautomatisch durchgearbeitet werden, ich sehe da keine Möglichkeit einer Gesamtlösung. Bei den Unicode-Zeichen Benutzer:Michael_Schönitzer_(WMDE)/Sortierschlüssel/Unicode könnte ich entsprechende Regeln einbauen. Besten Gruß --FNDE 21:49, 20. Mai 2017 (CEST)Beantworten

Startvorbereitung

Bearbeiten

@Michael Schönitzer (WMDE), PerfektesChaos: von meiner Seite ist ja inzwischen alles vorbereitet. Wollen wir konkreter werden bzgl. der Durchführung? --FNDE 19:25, 14. Jun. 2017 (CEST)Beantworten

Hi, wir haben ein Test-Wiki installiert. Die Idee wäre das wir ein zufälliges Sample der zu bearbeiteten Seite sowie ein Sample von nicht betroffenen Seiten dort importieren und einen Testlauf mit dem Bot darüber laufen lassen. Ich kam wegen der derzeit laufenden Umfrage noch nicht dazu die Samples zu generieren und importieren. -- Michael Schönitzer (WMDE) (Diskussion) 19:58, 14. Jun. 2017 (CEST)Beantworten
Bitte wartet die eine Million auffüllenden Personendatenschlüssel ab.
Meine Beteiligung an dieser WMDE-Umfrage blockiert meine mageren Kapazitäten, irgendwas zu Ende zu bekommen und mal zwölf Stunden am Stück mich mit irgendwas intensiver beschäftigen zu dürfen.
Auch die Analyse der Umstellungsfolgen ist noch nicht aufgearbeitet; ein Blindflug mit ungewissem Ausgang und bei kurz auf einander folgenden fundamentalen Umstellungen und in völliger Unkenntnis der Auswirkungen wäre katastrophal.
VG --PerfektesChaos 20:21, 14. Jun. 2017 (CEST)Beantworten
Alles klar, wollte hier auch keinen Stress verbreiten, dachte nur wir wären schon soweit :) Was wird denn bei den Personendatenschlüsseln verändert und in welchem Zusammenhang passiert das? Steh da gerade etwas auf dem Schlauch. --FNDE 23:16, 14. Jun. 2017 (CEST)Beantworten
Dann noch einmal:
  • In wohl knapp einer Million Artikel kann der Standardsortierschlüssel wegfallen.
  • Davon gehen über 700.000 auf Personendaten, die den zukünftig selbst produzieren.
  • Vielleicht 250.000 auf andere Seiten mit Umlaut oder so.
  • Bei 50.000 sind numerische Sortierungen betroffenn.
  • Damit ändern sich für Wikipedianer drei Arten von Regeln.
  • Um nicht zu sehr zu verwirren, soll es nur eine Umstellung für alles geben. Die neuen Anleitungen gehen von dieser Situation aus.
  • Bei den numerischen würde die Beibehaltung der momentanen Schlüssel die Reihenfolge ändern. Das und nur das soll durch einen Bot-Lauf korrigiert werden.
  • Die inhaltliche und sortiertechnische Auswirkung weiterer Sonderzeichen in 5.000 oder 10.000 Seiten wurde bislang nicht untersucht.
  • Wo der Standardsortierschlüssel zwar überflüssig angegeben ist, aber zur gleichen Sortierfolge wie bisher führt, bleibt er einstweilen stehen und kann im Lauf der Zeit bei anderen Gelegenheiten eliminiert werden.
  • Es könnte sich ergeben, dass einzelne Standardsortierschlüssel von Personendaten zukünftig zu inkompatiblen Angaben führt, weil bislang manuell nicht wie vorgesehen angegeben, und dass seit einiger Zeit das System mit Fehlermeldungen reagiert; das werden wir dann sehen.
Nebenbei würde ich gern mal den Bot-Quellcode sehen, der
  1. eine Seite modifiziert
  2. die gestreute Abfolge der Bearbeitungen steuert.
VG --PerfektesChaos 13:25, 15. Jun. 2017 (CEST)Beantworten

@PerfektesChaos: okay, dann müsste sich ja der Michael Schönitzer (WMDE) nochmal zu deinen Punkten äußern. Weißt du denn ab wann die Personendaten in den Artikel "selbst produziert" werden? Das mit dem Quellcode kriegen wir hin (Bot ist aber in Python geschrieben). Was meinst du mit gestreuter Abfolge? Die Seiten werden so behandelt, wie sie in der Datenbank stehen. Beste Grüße --FNDE 14:14, 15. Jun. 2017 (CEST)Beantworten

Gibts hier eigentlich Neuigkeiten, PerfektesChaos & Michael Schönitzer (WMDE)? --FNDE 13:58, 31. Jan. 2018 (CET)Beantworten
Wenn es welche geben würde, dann stünde das hier.
  • Für die technische Umsetzung bräuchte ich mal einige Wochen Ruhe, und daran ist derzeit angesichts Dutzender offener Baustellen nicht zu denken.
  • Für die Einführung in der Community müssen nach Erfahrungen mit vergleichbaren Angelegenheiten mehrere Monate mit Betreuung, Klärung von Einzelfällen und Beantwortung von Rückfragen durch wirklich Fachkundige gerechnet werden, und die habe ich derzeit nicht mal eben frei.
Ich weiß sehr genau, dass diese Angelegenheit wie ein Damoklesschwert über mir hängt.
  • Ich bekomme aber momentan täglich/wöchentlich mehr neue Geschichten ab, als ich im selben Zeitraum abarbeiten könnte.
  • Ich habe derzeit nioch ein halbes Dutzend Dialoge offen, wo ich eigentlich noch antworten müsste, aber schon seit letzter Woche nicht dazu komme.
  • Eine Nachfrage wie diese zu beantworten vergrößert mein Zeitbudget auch nicht gerade.
LG --PerfektesChaos 14:53, 31. Jan. 2018 (CET)Beantworten
PerfektesChaos, tut mir Leid, wollte dich nicht chasen. Kann ich dich evtl. dabei unterstützen? --FNDE 16:57, 31. Jan. 2018 (CET)Beantworten
Danke der Nachfrage, nein, mir ist nicht zu helfen.
  • Du hast gestern auf deiner BD gesehen, dass ich delegationsfähige Teilaufgaben sehr wohl an hilfreiche Geister zu verteilen weiß.
  • Hier müsste jedoch erstmal ein Lua-Personendaten-Modul mit 550 Zeilen geschrieben von jemand, der noch nie zuvor Lua programmiert hatte, komplett überarbeitet werden.
  • Und dann muss ein monatelanger Prozess des Umlernens der Autoren organisiert und begleitet werden.
    • Wobei gerade die Autoren, die schon 10 Jahre dabei sind, extreme Schwierigkeiten damit haben, sich Veränderungen anzupassen und irgendwas Neues dazuzulernen, und denen das insgesamt so einfach wie möglich gemacht werden muss.
  • Und die Tausende Treffer unklarer Sortierpraxis umseitig stimmen mich auch nicht hoffnungsfroh.
Die Angelegenheit hier ist von Anfang an verkorkst worden.
  • Begonnen wurde mit der Anforderung einer Konfigurationsänderung und dem Suchen nach einem willigen Bot-Betreiber.
  • Die eigentlichen Knackpunkte sind aber, wie sich das auf genau welche Million Artikel auswirken wird, und genau welche Veränderungen vorgegebener Sortierschlüssel vom Bot gemacht werden müssen, und wie Hunderte von Autoren dazulernen werden.
  • Ein Gesamtkonzept gab es noch nicht, als bereits mit der technischen Aktivierung angefangen wurde.
  • Die wichtigen und komplizierten Punkte wurden übersprungen, und mit den trivialen technischen Maßnahmen wurde begonnen. Die können aber erst ganz zum Schluss umgesetzt werden und sind sehr kurzfristig und problemlos realisierbar.
  • Also haben wir jetzt eine offene Phabricator-Task und einen Bot-Betreiber, der periodisch anfragt, wann er denn endlich loslegen könne, was mich beides noch mehr Zeit und Nerven und Kilobytes kostet.
LG --PerfektesChaos 10:34, 1. Feb. 2018 (CET)Beantworten

Update to ICU starting on April 9 will briefly affect category sort order

Bearbeiten

Gerade auf der Ambassador-Mailingliste gelesen: Update to ICU starting on April 9 will briefly affect category sort order. Hilft uns das? — Raymond Disk. 13:30, 23. Mär. 2018 (CET)Beantworten

hier ist's so tot

Bearbeiten

Gibt es einen Status? Siehe auch letzten Satz auf Hilfe:Kategorien#Die_Sortierung_soll_vom_eigentlichen_Lemma_abweichen. Offensichtlich ist das feature serverseitig noch immer nicht aktiviert, hab's grade ausprobiert [1]. lg --Herzi Pinki (Diskussion) 12:20, 9. Mai 2020 (CEST)Beantworten

Es genügt nicht, die Software umzustellen; das hat auch Auswirkungen auf eine bis anderthalb Millionen Artikel plus zigtausende Seiten in anderen Namensräumen.
Es müssen in massiven Bot-Einsätzen rund 100.000 Seiten in einer noch nicht erforschten Weise umgeschrieben werden.
Es bedarf einer Jahresarbeit, um Tausende von Autoren anhand neuer und dann sehr stark vereinfachter Anleitungen umzuschulen, den Änderungsprozess zu organisieren, und dann noch über etliche Jahre lang mehr oder weniger schwierige Rückfragen kompetent zu beantworten.
Ich habe hier bereits mehrere solcher Umstellungsprozesse begleitet bzw. begleite zurzeit mehrere davon; und ich kann überblicken, was für ein riesiges Drama das wird.
Die Leutchen, die da mal eben husch-husch gevotet hätten, man solle mal eben einen Software-Switch umlegen, hatten sich keinerlei Gedanken über die Konsequenzen gemacht.
Die Umstellung ist nicht mit unserem bisherigen Einsatz von Sonderzeichen und numerischen Werten kompatibel, und bei Artikeln über Personen können bei intelligenter Handhabung die explizit vorgegebenen Sortierschlüssel fast immer wegfallen.
Wie du siehst, beobachte ich diese Seite und antworte prompt; aber ich habe zu viele offene Baustellen und Dutzende von Wikipedianern am Hals, die beispielsweise grad innerhalb der letzten Stunden bei derartigen Umstellungsprozessen querschießen, als dass ich mir momentan auch dieses Teil noch ans Bein binden kann.
Insgesamt habe ich in den letzten Jahren bereits zwischen 50 und 100 Arbeitsstunden in diese Aktion investiert; bisher leider noch nicht mit Endresultat.
VG --PerfektesChaos 12:58, 9. Mai 2020 (CEST)Beantworten
Danke, habe das alles von dir schon woanders gelesen. Wollte nur den Status wissen. Sorry  Vorlage:Smiley/Wartung/sad  --Herzi Pinki (Diskussion) 15:32, 9. Mai 2020 (CEST)Beantworten
Mal ganz dumm gefragt: kann man denn irgendwie helfen das Projekt zu strukturieren? --FNDE 17:53, 9. Mai 2020 (CEST)Beantworten
Nein, und je mehr Anfragen kommen desto genervter werde ich.
Zurzeit arbeite ich gerade eine ähnliche Sortierungsangelegenheit auf, die seit spätestens 2012 hoffnungslos veraltet ist und dringend abgestellt werden muss, bevor immer mehr Unsinn eingebaut wird.
Diese Geschichte hier hätte ich schon vor Jahren glücklich beenden können, wenn nicht einzelne Benutzer ihr Ego durchdrücken müssen und nicht einsichtig sind.
Den ersten Ansatz zu dieser Sortiererei hatte Schnark schon vor fast einem Jahrzehnt zusammen mit mir begonnen, und wir tüftelten auch schon an einer Migration, als ein Wikifant daherkam und an der Frage, ob wir SORTIERUNG schreiben dürfen oder ob man in diesem Projekt nur DEFAULTSORT schreiben darf die Diskussionsseite erfolgreich blockierte. Dann eben nicht.
VG --PerfektesChaos 18:19, 9. Mai 2020 (CEST)Beantworten