Wikipedia Diskussion:Lua/Werkstatt/Archiv/Defekter Weblink Bot

Letzter Kommentar: vor 9 Jahren von Mabschaaf in Abschnitt Syntaxfehler in Meldung?

Dies ist das Archiv zur Seite Wikipedia Diskussion:Lua/Werkstatt/Defekter Weblink Bot.

Es wird manuell archiviert.

Alte Diskussion

Bearbeiten

Hi PerfektesChaos, erst mal vielen Dank für Deine Vorschläge - ich hatte schon den Eindruck, die Geschichte mit den defekten Weblinks schläft für die nächsten 5 Jahre wieder ein. Allerdings bin ich etwas verwundert, weil die Diskussion hier schon zu anderen Vorschlägen gekommen war, im Wesentlichen dazu, jeden defekten Link in eine eigene Vorlage einzubinden:

 == Defekte Weblinks ==
 {{Hinweis-Baustein}}
 {{def.Link|www.tot.de}}
 {{def.Link|www.ganztot.com}}
 {{def.Link|...}}
 --Signatur

Natürlich könnte man zusätzlich noch ein Melde-Datum und den Botnamen aufnehmen, wie

 {{def.Link|2013-05-30|DeadBot|www.ganztot.com}}

Was die Vorlage (hier jetzt mal def.Link genannt) dann alles leistet, könnte dann sogar dynamisch jederzeit angepasst, erweitert, etc. werden, auch, wie (mit welchem Text, nützlichen Links etc.) sie tatsächlich auf der Disku erscheint.

Dabei sollten bei einer neuen Disku-Bearbeitung die noch vorhandenen GiftBot-Meldungen geprüft und ersetzt werden.

Ich freue mich, wenn Du dran bleibst und wir zügig zu kleinen Testläufen kommen könnten, so mit jeweils einem Dutzend Artikeln, damit niemand wg. Beo-Spamming schimpft. Viele Grüße --Mabschaaf 23:34, 30. Mai 2013 (CEST)Beantworten

Ich habe das kurz überflogen. Diese Seite habe ich nicht mehr auf der Beo. Der Stand um Dezember 2012 ist mir bauchmäßig geläufig; die möglichen Erweiterungswünsche nach März nicht so.
Es liegt allerdings in der Kunst der Vorlagenprogrammierung weit hinter der hier skizzierten Lösung zurück; du bist bei Hilfe:Lua.
  • Richtig aufgenommen wurde damals, was ich auch schon mal vor Ewigkeiten anmerkte: Die URL müssen Vorlagenparameter sein.
Mit alter Vorlagenprogrammierung kannst du mal die Frage beantworten, wie man daraus spontan eine Wartungskat bildet, in der alle toten Links auf die Domain ard.de enthalten sind. Tipp: URLutil #getTop2domain
  • Ein Nachteil springt mir bei der von dir verlinkten Lösung ins Auge: Die Zuordnung jeder einzelnen URL zum Zeitpunkt des Botlaufs ist nicht zweifelsfrei gegeben, so dass sie nicht rückwirkend wieder aus den Disku entfernt werden können, oder durch einfaches Ändern der Programmierung aus den Kats schlicht zentral ausgeblendet werden können, und die URL auf einen Schlag deaktiviert werden können.
  • Der möglicherweise aussichtsreiche Archiveintrag ist längst nicht so elegant gelöst. Hier werden der betreffenden URL schlicht ein paar Kennbuchstaben wba vorangestellt. Das hält die Zeilen kurz.
Alles andere, was ich auf der verlinkten Lösung alter Art so sehe, ist hier umseitig natürlich eingepreist.
Die Ideen dort gehen teilweise davon aus, dass der Bot direkt im Artikel rumwirtschaftet. Darauf wird sich niemand von Geblüt einlassen. Ich spreche ausschließlich nur von der Disku, wie bislang auch.
Gute Nacht --PerfektesChaos 00:12, 31. Mai 2013 (CEST)Beantworten
Nur ein paar Anmerkungen: Ich habe von Vorlagen(programmierung) keine Ahnung, von Lua noch weniger. Ich komme rein von der Anwenderseite mit der Erfahrung von ein paar tausend manuell gefixten Weblinks. Ich kann daher von der Eleganz der Programmierung und dem Horizont der Möglichkeiten weder das beurteilen, was sich Boshomi damals ausgedacht hat, noch, was Du jetzt im Hinterkopf hast. Ich kann nur rückmelden, dass ich das gesamte Projekt WLW zu technisch und über weite Strecken unverständlich finde. Zentrales Anliegen meinerseits ist es daher, den Quelltext auf den Diskus übersichtlich und DAU-tauglich zu halten, aber für Fortgeschrittene auch hilfreiche Funktionen einzublenden (Archiv-Link, weitere Linkverwendungen, Domain-Suche, etc.). Du wirst daher mit so Leuten wie mir immer das Problem haben, dass ich eigentlich das Ergebnis sehen müsste, um beurteilen zu können, ob man das so machen sollte. Dann ist aber natürlich die Arbeit schon hineingesteckt.
Ein Nachteil in Deiner Variante sehe ich aber schon: Wenn Du mal davon ausgehst, dass mehrere Botläufe stattfinden und keiner zwischenzeitlich alle Links fixt, dann werden auf den Diskus Listen toter Links auftauchen, die in unterschiedlichen Botläufen erkannt wurden, jeder einzelne Tote Link müsste daher ein eigenes Melde-Datum und den zugehören Bot bekommen. Was mM dafür spräche, direkt jedem toten Link eine eigene Vorlage mit genau diesen Daten zu geben (so wie hier oben schon vorgeschlagen).
Ebenfalls gn8. --Mabschaaf 00:37, 31. Mai 2013 (CEST)Beantworten
Ja, aber … aber … aber genau das steht doch da.
Guck dir doch das umseitige Beispiel mal genauer an: Das ungefähre Datum (der Monat des Botlauf-Starts reicht völlig aus und gilt auch über acht Wochen) steht ein einziges Mal am Anfang, und fertig. Nebenbei war das Fehlen einer derartigen Zeitangabe beim letzten Lauf einer der von mir geäußerten Kritikpunkte aus dem letzten Herbst.
Dieses Datum gilt für alle in derselben Vorlagen-Einbindung auftretenden URL. Sie sind hier mit 1=, 2= usw. als einzelne Parameter aufgezählt (dieses Gleichheitszeichen muss sein; sonst gibt es Bruch, wenn ein = in der URL vorkommt, was ziemlich häufig ist; alles, was links von einem ersten = steht, gilt als Name eines Parameters).
Jede URL steht in einer eigenen Zeile. Wenn eine erledigt ist, kann die Zeile komplett gelöscht werden. Die Parameter müssen nicht fortlaufend nummeriert sein.
Deine Variante läuft darauf hinaus, dass das Datum jedes Mal in jeder Einzelvorlage steht. Das macht es nicht kompakter und übersichtlicher; die einzelnen Zeilen werden bloß länger.
Wenn ein Jahr später ein neuer Botlauf erfolgt, kann die gesamte alte Vorlage von der Disku gelöscht und durch den aktuellen Befund ersetzt werden. Sofern es nach dem Folge-Botlauf dann noch Einbindungen mit dem alten Datum gibt, dann stehen diese URL gar nicht mehr im Artikel oder funktionieren inzwischen wieder, und diese Altfälle können von den Diskus entsorgt werden.
Beachte die mit 3= angegebene URL: Hier ist das Schlüsselwort wba vorangestellt. Das meint: Der Bot hat festgestellt, dass im Archiv „wba“ eine aussichtsreiche Kopie vorhanden ist. Es wird aber nicht noch die ewig lange Archiv-URL mit auf die Disku geschrieben, sondern es gibt eine Bildungsregel, wie man aus der nicht erreichbaren URL hierfür ein Archivlink in der Anzeige darstellt. Auch das hält den Eintrag auf der Disku kurz.
Die Generierung eines Such-Links auf weitere Seiten mit gleicher URL (kommt das wirklich oft vor??) ist unproblematisch.
Beim Projekt WLW bestätige ich ein erhebliches Missverhältnis zwischen dem Umherwerfen von nicht existenten technischen Fachbegriffen, die man auch gar nicht verstehen kann, und sehr bescheidenen tatsächlichen Kapazitäten in Programmierung, Wiki-Zusammenarbeit und Organisation großer Mengen an Seiten. Mir wurde das irgendwann zu bunt, und ich habe mich dort ausgeklinkt.
Baldiges Wochenende --PerfektesChaos 09:27, 31. Mai 2013 (CEST)Beantworten
Mh, möglicherweise habe ich Dich da tatsächlich missverstanden oder den geplanten Funktionsumfang nicht erfasst. Ein paar konkrete Punkte:
  • Datum/Botname: mM wäre es sinnvoll, eine Angabe über die Erstmeldung eines def. Links zu haben und ich halte es für weniger hilfreich, wenn jetzt in einem weiteren Botlauf alle 2012-GiftBot-Meldungen überschrieben werden mit 2013-xyBot. Aber genau das würde doch passieren, wenn es nur eine Vorlage mit einem Datum gibt, das dann zwangsläufig für alle dort genannten Links gilt, oder?
  • Mehrfache Verwendung innerhalb WP: Ja, ich kann Dir bestätigen, dass das öfter vorkam. (Es gab ja auch mal eine Komplettliste aller von GiftBit gemeldeten Links, die nach Import in Excel sortierbar und auswertbar war.) Insofern ist ein Hinweis, der natürlich nur dann erscheint, wenn ein Link mehr als einmal verwendet wurde, wirklich hilfreich.
  • Mehrfache Domainverwendung: Wäre auch überlegenswert, ob man das irgendwie analysiert und entsprechend zugänglich macht. Es ist ja beispielsweise auch schon eine hilfreiche Info, ob nur ein Dokument weg ist oder die komplette Domain down.
Wenn Du das alles im Blick hast: Mach einfach - ich will Dich nicht totquatschen. Ich sehe rückblickend bei der 2012-Aktion, dass dort kein kleines Testpaket gemacht wurde, sondern direkt komplett-WP und dass die Kommunikation zu Giftpflanze zwischenzeitlich nicht ganz einfach war (was bei den massiven ins persönliche gehenden Angriffen aber mM auch nachvollziebar ist). Das solltest Du vermeiden. Ich kann da nur das Vorgehen von Cactus26 mit den namenlosen Weblinks lobend hervorheben: Kleine Katbaumäste zum Testen und weiterentwickeln - in einem Ausmaß, dass selbst ein Komplettrevert nicht tragisch wäre. Bis später --Mabschaaf 10:13, 31. Mai 2013 (CEST)Beantworten
  • Mehrfache URL in der WP: Wenn der Bot dies weiß, kann er gern ein + zwischen Gleichheitszeichen und https setzen:
    |4=+ http://example.com/xy
    • Sobald ein solches + vorhanden ist, kann ich ein auffallendes Zusatz-Link generieren auf die Weblinksuche mit allen weiteren Artikeln, die heute genau diese URL enthalten.
    • Nebenbei ist die http: wichtig; es könnte auch https sein oder je nach Bot ftp.
    • Alles, was durch Leerzeichen getrennt zwischen Gleichheitszeichen und Protokoll steht, kann ich als besondere Optionen für diese URL interpretieren.
  • Das Problem mit den alten Vorlagen-Einbindungen und URL von vor Jahren ist, dass sie jede Auswertung und die Weblinksuche verstopfen:
    • Die Weblinksuche ist auf 500 Seiten/URL in allen Namensräumen begrenzt. Wenn davon 460 auf Disku-Seiten stehen und 444 Bot-generiert sind, womöglich von vor drei Jahren, kann ich die wirklichen Probleme dieser Domain nicht mehr finden. Wird hingegen in einem menschlichen Disku-Beitrag die URL benutzt, ist das okay und bleibt so auf ewig.
    • Hilfreich; ja, manchmal. Falls sich jemand drum kümmert. Wir haben aber noch unbearbeitete Ergebnisse von Bot-Läufen 2006/2007. Die auch niemand systematisch wiederfinden kann, weil sich niemand Gedanken über die Folgeprobleme gemacht hatte.
    • Der Bot müsste pfiffig sein und solche Alt-Lauf-URL von der Disku entfernen, die aktuell gar nicht mehr im Artikel vorkommen oder keine Probleme mehr machen (weil die Domain längst wieder live ist).
    • Heißt: Wenn die gleiche im Artikel noch auftretende URL bereits im vorangegangenen Bot-Lauf unerreichbar war, wäre das vom Bot aus der Disku zu detektieren und beim Einfügen der neuen Vorlageninhalte zu vermerken:
      |5=2012 http://example.org/yz
    • Du merkst, wie wichtig maschinell auswertbare Datumsstempel für die nachfolgenden Bot-Läufe sind?
    • Wenn ich ein solches Schlüsselwort (bisher: +, wba, 2012) vor dem http sehe, kann ich einen Hinweis in der Ausgabe generieren: „Diese URL war bereits Mitte 2012 unerreichbar gewesen.“
    • Ceterum censeo: Die Altlasten an historischen Bot-Läufen dürfen nicht mit wirksamen URL die Disku verstopfen; man kann auch schon nicht mehr auf den jeweils zuletzt eingefügten Disku-Abschnitt verlinken. Was nicht mehr im Artikel genannt wird, muss auf jeden Fall verschwinden. Die Information, dass die gleiche URL bereits vor einem Jahr unerreichbar gewesen war, wird in oben genannter Weise auswertbar transportiert und konserviert. Der alte Abschnitt kann und sollte gelöscht werden.
  • Ich teste nicht an kleinen Kat-Bäumen. Nicht in der richtigen Wikipedia.
Schönes Wochenende --PerfektesChaos 11:28, 31. Mai 2013 (CEST)Beantworten
Klingt alles vernünftig, was Du schreibst. Mach einfach weiter und lass mich offene Türen einrennen... ;-)
Nur eins noch: Testen auf β-dewiki ist okay, solange Du in der Entwicklungsphase bist. Nur irgendwann musst Du an die Nutzer ran - und die lesen weder dort noch hier mit. GiftBot hat ja technisch auch funktioniert, es war nur vieles vorab nicht bedacht, was erst dadurch offensichtlich wurde, dass viele Nutzer mit ganz unterschiedlichem Blickwinkel an die Abarbeitung gingen und plötzlich merkten, was alles hätte noch besser sein können. Den schlimmsten Fall, nämlich dass man später feststellt, dass zusätzliche/andere Informationen auf die Diskuseite hätten geschrieben werden müssen - also ein Problem, was sich nur mit zusätzlichen Edits in allen Meldung lösen ließe - sollte keinesfalls auftauchen. Die Programmierung später noch zu ändern, so dass andere Dinge angezeigt werden, ist dagegen ja kein Problem. Danke für Deine Geduld mit mir! --Mabschaaf 11:51, 31. Mai 2013 (CEST)Beantworten
Nützlich wäre einzubauen, zusätzlich zu bisher Vorgeschlagenem, was die Tools weblinkChecker.js und (#2) Dead Link Finder bieten:
Vorlage erzeugt:
  1. Weblinks zu eingekürzten URLs, zum Server
  2. Link "Aktueller Weblink-Status" ergänzt bei jeder URL den Status (Javascript - geht sowas überhaupt?)
  3. Link zum Abschnitt Referenzen bei langen Artikeln
  4. Edit-Link zum Artikelabschnitt, in der die URL steht (&action=edit&section="nr")
  5. Suchmaschinenlink mit site:"server"+"linktext"/URL-Teile
Giftbot füllt Vorlagenparameter mit:
  1. HTTP-Status, inkl. "defekt nach Weiterleitung" als 302→404
  2. Anzahl Weblinks des selben Servers auf Spezial:Weblinksuche
  3. Artikellänge
  4. Anzahl Bearbeitungen der Diskussionsseite in den letzten sechs Monaten
  5. Sektionsnummer des Artikelabschnitts mit defektem Weblink
  6. Textausschnitt (mindestens Linktext) zur Unterstützung der Suche mit Suchmaschinen
Wenn der Bot #10 und #11 nicht macht, kann die Vorlage bei Aufruf der Diskussionsseite #4 und #5(Linktext) allein erledigen, wegen des Aufwands nur bei langen Artikeln (dafür #8) mit selten bearbeiteten Diskussionsseiten (dafür #9).
Verwöhnt von ausgefeilten Tools zur Weblinkwartung im ODP ist mir klar, "Wikipedia ist kein Webverzeichnis" heißt auch, Wikipedia ist keine Autorität bezüglich Weblinks i.S. der Aufrechterhaltung ihrer Gültigkeit. Deshalb und bei abzusehender geringer Beteiligung am Linkfixen ist voll ausreichend, was PerfektesChaos hier vorschlägt, zumal unbezahlte Ansätze technischer Unterstützung stagnieren, Aussichten auf finanzielle Honorierung geweckt sind (Schließung Toolserver, CPB, bezahlte Editoren) und neulich der Ruf nach entlohnten Weblinkfixern zu hören war[1]. Kurz, mehr ist der Mühe nicht wert. <off-topic>Wäre angesichts dieser erfreulichen Lage noch jemand für die Radikalkur, tote oder verdächtige Weblinks per Bot in die Artikel-History zu "verschieben" und durch Links in die Versionsgeschichte wie bei diesem Test zu ersetzen?</off-topic> --Thoken (Diskussion) 16:57, 31. Mai 2013 (CEST)Beantworten
- korrigiert bzgl. Spezial:Weblinksuche, sorry --Thoken (Diskussion) 19:23, 31. Mai 2013 (CEST)Beantworten


@Thoken * Danke für die Gedanken; ich sortier mal, was so geht und was nicht.
  1. Weblinks zu eingekürzten URLs, zum Server
    • Habe ich nicht verstanden.
    • Direktlink auf externe Tools, wie oben angedeutet?
    • Vielleicht etwas verwirrend, so viele Links. Kann generiert und in den HTML-Text eingebettet werden, ist aber für Normal-Autoren unsichtbar. WLW-Profis können es per CSS sichtbar machen.
    • (Vorschau Anzahl Treffer auf Spezial:Weblinksuche)
      • Mit Lua nicht möglich.
      • Vorgesehen nur dann eine Link-Anzeige, wenn Bot ein + gemeldet hatte.
      • Mit JavaScript für Weblink-Wartungspersonal sekundengenaue API-Abfrage möglich.
  2. Link "Aktueller Weblink-Status" ergänzt bei jeder URL den Status
    • Aus Sicherheitsgründen prinzipiell nicht aus der Seite heraus möglich.
    • Lua schon gleich gar nicht.
    • JavaScript nur innerhalb de.wikipedia.org, moderne Browser seit einiger Zeit mit Ausnahmegenehmigung innerhalb der WMF.
    • Ginge nur mit Browser-Add-On oder Java oder externem Tool.
  3. Link zum Abschnitt Referenzen bei langen Artikeln
    • Ist das nicht arg verwirrend, so viele Links?
    • Ctl+PgDn↓ tät es nicht?
    • Ich kann nur auf ein Fragment verlinken; welches darf’s denn sein? Einzelnachweise, Anmerkungen, Fußnoten, Quellen, Belege, Referenzen, Einzelnachweise und Anmerkungen? Die haben zwar eine class="references" und id="cite_note-1", aber sehr gekonnt sieht das nicht aus. Was soll ich denn dort sehen? Vielleicht steht es unter „Weblinks“; vielleicht oben in der Infobox?
  4. Edit-Link zum Artikelabschnitt, in der die URL steht
    • Das ist mit Lua sogar machbar.
    • Ist allerdings hartes Brot für die Hamster.
    • Performancemäßig der Horror, müsste man bei 200.000 Seiten mal nachdenken. In der Erprobung die Ausführungszeit messen.
    • Kann nachgerüstet werden; wenn die URL bekannt ist, Null Problemo.
    • Lua kennt den Wikitext des Artikels zur Disku-Seite und kann von der URL-Fundstelle aus zurückschauen, welches diese Woche die zuletzt auftretende Abschnittsüberschrift gewesen war.
  5. Suchmaschinenlink mit site:"server"+"linktext"/URL-Teile
    • Vielleicht etwas verwirrend, so viele Links. Kann generiert und in den HTML-Text eingebettet werden, ist aber für Normal-Autoren unsichtbar. WLW-Profis können es per CSS sichtbar machen. Allerdings weiß ich nicht, wo ich nach dieser Domain und irgendwelchen Teilen suchen soll und was mir das bringen soll. Eher was für JavaScript.
  6. HTTP-Status, inkl. "defekt nach Weiterleitung" als 302→404
    • Giftbot darf gern in das Optionsfeld vor dem Protokoll kurze Codes reinschreiben, wenn sie von 404 abweichen.
    • 302 mag man machen; 500 oder kurz 5 kann ich auch in eine Klartext-Meldung umsetzen.
  7. Artikellänge
    • Wem nützt das? Ist das nicht zuviel Info?
    • Wenn #4 realisiert würde, wüsste ich das Wochen-aktuell.
  8. Anzahl Bearbeitungen der Diskussionsseite in den letzten sechs Monaten
    • Soll GiftBot für die Vorgeschichte ermitteln; aber wozu?? Viel zu verwirrend, wenn das Vorlagen-Ergebnis mal so, mal so, weil die eine Disku häufiger und die andere seltener bearbeitet wurde. Wer soll das raffen?
    • Aktuell nur mit JavaScript.
  9. Sektionsnummer des Artikelabschnitts mit defektem Weblink
    • Wenn die Meldung ein halbes Jahr später bearbeitet wird, wurde der Artikel schon dreimal umgestellt, Abschnitte eingeschoben oder gelöscht. Diese Sektionsnummer führt in die Grütze.
    • Wenn #4 realisiert würde, wüsste ich das Wochen-aktuell. Notfalls kann man einen Purge-Button vorsehen, der die Disku neu aufbaut; dann müsste auch die Einbindung aktualisiert werden und ist sekundengenau treffsicher zum aktuellen Wikitext.
  10. Textausschnitt (mindestens Linktext) zur Unterstützung der Suche mit Suchmaschinen
    • Wenn #4 realisiert würde, wüsste ich den halbwegs aktuellen Linktitel. Wenn überhaupt Klammern drumrum sind. Ohne Klammern steht es ja sowieso offen. Mit Klammern ohne Titel ersatzweise vielleicht [*] und möglicherweise ein Text-Fragment aus der Umgebung.
    • Problem, wenn GiftBot das ermittelt und reinschreibt: Jede Zeile wird auf der Disku-Seite lausig lang. Damit sehr unübersichtlich, wenn jemand versucht, auf der Disku eine erledigte URL herauszulöschen. Dabei geht dann noch was schief. Der Linktitel kann Bot-generated sein und 250 Zeichen lang.
    • Außerdem bin ich mir nicht so sicher, ob GiftBot den Wikitext des Artikels jemals liest. Soweit ich das verstehe, gehen Bot und Frauchen durch die Datenbankabfrage (analog API) durch und ermitteln zu den dort aufschlagenden ext-URL eines Artikels den Status.
--PerfektesChaos 23:49, 31. Mai 2013 (CEST)Beantworten
Danke für die ausführliche Diskussion.
  1. Weblinks zu eingekürzten URLs, zum Server
    http://example.com/dir/page.htm weblinkChecker.js hat das, ich finde die Idee wunderbar, habe sie vorher noch nirgends gesehen, platzsparend und schnell ist herauszubekommen, ob der Server oder der ganze Pfad oder Teile tot oder für die Suche nach einer neuen URL nützlich sind.
  2. Link "Aktueller Weblink-Status" ergänzt bei jeder URL den Status
    Gibt es keinen Weg, die Antwort von zB [2] ohne den Umweg über js-Einbindung in vector.js & Co. in den Wikitext zu schreiben? Ich würde das gern ausprobieren, verstehe von js aber zu wenig.
  3. Link zum Abschnitt Referenzen bei langen Artikeln
    Welcher Abschnitt: Wo am häufigsten Gefixtes kontrolliert werden sollte: Referenzen
  4. Edit-Link zum Artikelabschnitt, in der die URL steht
    wg. Aufwand abschätzen: Dafür braucht es Angaben, wie nützlich das ist (Artikellänge)
  5. Suchmaschinenlink mit site:"server"+"linktext"/URL-Teile
    Regelmäßig erst auf dem Server zu suchen, mit einem im Suchfeld der Suchmaschine schon vorhandenen, dort leicht korrigier- oder ersetzbarem Text, ist zweckmäßig, weblinkChecker kann das.
    zu Linktext-Länge: "auf der Disku eine erledigte URL herauszulöschen". Wäre nicht gefixt=nein/ja am Zeilenanfang sowieso besser?
  6. Anzahl Bearbeitungen der Diskussionsseite in den letzten sechs Monaten
  7. Geht das nicht per API? Ich werd mir das mal ansehn. Wächst mit der Anzahl der Besuche der Diskussionsseite nicht der Aufwand durch Einbindung/Ausführung der Vorlage?
Generell ist das Linkfixen so aufwändig, dass es nicht zweckmäßig ist, die mögliche Verwirrung von "Gelegenheits"-Linkfixern zu berücksichtigen, sondern nötig, alles, was Schritte/Klicks einspart, einzubauen. Sonst wird auch die Versuchung groß, zu Tricks zu greifen. Und weitgehend ohne spezielle js-/css-Sachen, so viel wie möglich mit Lua.
Andererseits kann anscheinend jeder über seine Spielwiese sein eigenes Modul benutzen, je üppiger der Bot die Vorlage mit Parametern versehen würde, um so besser. --Thoken (Diskussion) 11:16, 3. Jun. 2013 (CEST)Beantworten
  1. weblinkChecker-Fragmente
    • Kann ich gerne darstellen; jedoch nur im primär unsichtbaren Bereich.
  2. Momentaner Status-Code
    • Nein, ist sicherheitstechnisch in den Browsern unterbunden.
    • Wenn das gehen würde, könnte ich dir jeden Trojaner installieren.
    • Aus diesem Grund sind toolserver.org und wmflabs.org auch unabhängige Domains und kein „Wiki der WMF“. Jedes austickende bös untergeschobene Tool könnte sonst alles anstellen. Weil die Tools nicht lückenlos überwacht werden können, sind sie extern.
    • Um zu einer fremden Website zu gelangen, musst du auf Links klicken oder ein E-Mail-Attachment öffnen. Die Integration in eine Seite ist in einem Wiki unterbunden.
    • Nur ein Bookmarklet, Java-Applet, Browser-AddOn kann den Status/Status-Code feststellen; sie liegen außerhalb des HTML-Dokuments.
  3. Link zum Abschnitt Referenzen
    • Der hat noch nicht mal eine einheitliche Sprungadrsse; „Einzelnachweise“ wäre statistisch aussichtsreicher.
    • Dort guckt man dann auf 123 EN.
  4. Unter 4. habe ich oben schon geantwortet, dass ich bei Ausführung der aufwändigen Analyse zu dem kleinsten Anker oder Unterabschnitt verlinken kann, in dem das Link auftaucht. Wenn es die aufwändige Analyse gibt, dann einheitlich für alle Artikel und nicht in mysteriöser Weise mal so und mal so.
    • Unten auf dieser Seite steht dazu eine bessere Idee:
      • Wenn defekterWeblinkBotVorlage aktiv ist (bei dir gar nicht der Fall), kann die URL hervorgehoben werden. Dabei kann sogar die laufende Nummer der URL in ein Sprungziel eingebracht werden. Das ermöglicht einen völlig anderen Ansatz:
        • Eine zukünftige Version von defekterWeblinkBotVorlage kann die gesamte aktuelle URL-Liste (nicht die Bedienungsanleitung) mitsamt Flags aus der Disku-Seite übernehmen und im gleichen Stil wie statisch durch Lua dynamisch mittels JavaScript im Kopfbereich des Artikels darstellen; ergänzt durch Sprunglinks analog derer bei references. Damit kann aus dem Kopf direkt an jedes (auch mehrfaches) Vorkommen der defekten URL im Artikel und zurück gesprungen werden. Selbstverständlich gibt es die Liste mit den vielen URL dann zum Ein-und Ausklappen.
        • Auf die Disku und den speziellen Abschnitt kann nach wie vor gesprungen werden. Das ist dann aber nur noch erforderlich, um die erledigten URL zu löschen.
  5. Suchmaschinenlink
    • Wie unter 1.) – für WLW-Profis kann ich gern ein entsprechendes standardmäßig ausgeblendetes Link generieren.
    • weblinkChecker kenne ich nicht; habe aber keine Hemmungen, ihn auszubeuten und arbeitslos zu machen.
    • gefixt=nein/ja am Zeilenanfang sowieso besser?
      • Bloß nicht. Noch eine Syntax, die ich mir merken muss. Was hatten diese Techies nochmal, wie hieß das? fixed=yes oder wie ging das?
      • Da steht eine Liste von ursprünglich 17 URL, von denen 13 schon abgearbeitet sind. Wo sind denn jetzt die beiden, die ich gerade aktualisiert habe? Wie viele sind denn noch übrig? Kann die Vorlage und der Abschnitt jetzt ganz raus?
      • Nein, simpel und plump: Erledigt, Zeile löschen, fertig. Um so kürzer ist die Liste, und um so übersichtlicher die restliche Vorlageneinbindung.
  6. Anzahl Bearbeitungen der Diskussionsseite in den letzten Monaten
  • Bei jeder Veränderung der Vorlageneinbindung (Streichung einer URL) muss im Cache ein neuer Schnipsel mit der ausgewerteten Vorlageneinbindung für diese aktuellen Parameter generiert werden.
  • Solange außerhalb der Vorlage jemand editiert, wird der unveränderte Schnipsel aus dem Cache geholt und wieder an die gleiche Stelle der Seite geklebt.
  • Deshalb ist der sonstige Disku-Betrieb auf der Seite völlig schnuppe.
  • Hat ohnehin keine Konsequenz. Was hätte dann geschehen sollen? Zunge rausstrecken und sagen: „Ätsch, diese Disku wird zu oft bearbeitet, deswegen verrate ich dir die defekten Weblinks nicht!“
  • (ohne Nummer) dass es nicht zweckmäßig ist, die mögliche Verwirrung von "Gelegenheits"-Linkfixern zu berücksichtigen
    • Heftigster Protest.
    • Mir sind alle Autoren gleich lieb, die Gelegenheitsfixer genau so wie die Schwerst-Abhängigen.
    • Die weniger Erfahrenen sollen nicht durch eine Vielzahl kurioser Links auf seltsames Zeugs verwirrt werden, sondern ein übersichtliches Arbeitsmittel erhalten.
    • Die Routiniers können sich die Mühe machen, einmalig eine Konfigurationseinstellung vorzunehmen, um den Werkzeugen ihr Profitum zu signalisieren. Dann schütte ich euch gern mit zwei Dutzend Links pro URL zu.
Modul:Benutzer:Thoken/Defekter Weblink Bot ist auf meinem Radarschirm aufgetaucht; viel Spaß beim Üben.
Gute Nacht --PerfektesChaos 00:17, 4. Jun. 2013 (CEST)Beantworten

@Mabschaaf: Gelernte Lektionen

Bearbeiten
  • Das Feedback seitens der anderen Autoren ist schon längst vorhanden.
    • Es steht in den Kommentaren aus dem letzten Sommer; auf FzW oder überall verstreut, WD:K oder sonstwo.
    • Darunter ist allgemeines Geschimpfe, unqualifiziertes Gemecker, Gejammer über die verstopfte Beo; aber auch wertvolle Anregungen, Verbesserungsvorschläge und konstruktve Hinweise. Zum Beispiel meine.
    • Diese Erfahrungen sind systematisch auszuwerten, in bessere Methodik umzusetzen und vorab konzeptionell zu diskutieren. Siehe eins drüber. Auch auf WD:Bots. Es gibt nur einen Schuss pro Jahr; der kann zwischen Aachen und Aalen nochmal nachjustiert werden – dann muss es sitzen.
  • Zu den Erfahrungen gehört:
    1. Totalausfall der Kommunikation mit der Community beim Bot-Start.
      • Der Bot baute ohne irgendeine Vorwarnung plötzlich an Zehntausenden von Artikeldisku herum. Als er irgendwie bei B oder C war, wurde er mal für eine Woche oder so gesperrt. Es erhob sich ein in der Ursache nachvollziehbarer Proteststurm. Die geforderten Konsequenzen waren teils gaga, bis hin zu VM und BSV gegen die Betreiberin.
      • Gelernte Lektionen:
        1. Mindestens 24 Stunden vor dem Start hat ein Admin (ist ja bald einer in WLW) auf MediaWiki:Watchlist-summary eine watchlistnotice mit Verlinkung zu einer weiterführenden Projektseite anzubringen.
        2. Etwa eine Woche vor dem geplanten Starttermin eine Notiz in der rechten Spalte des Kurier; gleiche Verlinkung.
    2. Projektseite mit Erläuterung des Geschehens sowie konkreten, operationalen und aktuellen Handlungsanweisungen.
      • Die allgemeine Projektseite zu defekten Weblinks war beim Buchstaben M noch auf einem Stand von 2009 oder so, und erging sich in allgemeinen Betrachtungen.
      • Gelernte Lektionen:
        1. Der momentane Hinweisbaustein hat sich immer allgemeinverständlicher entwickelt. Er ist prinzipiell okay; könnte durch Verlinkung auf eine Projektseite mit einer ausführlichen Handlungsanleitung sogar noch gestrafft werden. Durch Lua-Einsatz könnten allerlei Wenns und Abers nur im auftretenden Einzelfall gezielt erläutert werden (Satzzeichen hinter URL einbezogen oder grad nicht; öffnende eckige Klammer).
        2. Eine gut auffindbare Projektseite hat eine kommentierte und mit Beispielen erläuterte ausführlichere Handlungsanleitung zu liefern, als dies in dem knappen Hinweisbaustein auf jeder Disku sinnvoll wäre.
          • Bis heute ist dieser MB-Entwurf nicht zu einer abgestimmten Lösung und Vorgehensweise hinsichtlich geleerter Disku gekommen. Das ist nach einem Dreivierteljahr eine ziemliche Pleite. Eine pragmatische Grundlinie ist besser als dieses Geeier.
          • Bei Wikidata war man in diesem Frühjahr noch nicht so weit. Als dort fremde Bots schon seit sechs Wochen irgendwie unterwegs waren und irgendwas anstellten, war auf der zugehörigen Projektseite noch davon die Rede, dass Ende 2012 Wikidata in den aktiven Dienst gehen solle; bei Totaldefizit jeglicher Details zum Migrationsprozess und seiner Schwiergkeiten und Widersprüche und Aktivitäten und Koordination.
    3. Vorherige Diskussion der konkreten Maßnahmen unter mehreren interessierten Sachkundigen; auch aus Kreisen anderer WP:Bots.
      • Die ersten paar Tausend auf die Disku geschriebenen Meldungen hatten für jede einzelne URL einen eigenen riesigen Hinweiskasten und vermutlich auch eine eigene Abschnittsüberschrift benutzt. Das wurde dann manuell nachträglich von Boshomi und Geitost zu Gesamt-Abschnitten mit nur einem Hinweis zusammengefasst. Vorheriger Review hätte dies mit Sicherheit vermieden.
    4. Den Benutzern sind vorab geeignete Werkzeuge verfügbar zu machen.
      • Beispielsweise erlaubt dieses Gadget das gezielte Ausblenden aller durch GiftBot vorgenommenen Bearbeitungen einer Artikeldisku; ggf. nur bei einem bestimmten Bearbeitungskommentar.
    5. Die rein technische Erprobung kann auf beta erfolgen.
      • Der Bot läuft vermutlich bereits auf wmflabs.org, β-dewiki residiert auch dort; der Bot sollte dies können. Dort sind an Dummy-Artikeln alle bekanntgewordenen kritischen Kombinationen durchzuspielen (mehrere defekte Weblinks; Satzzeichen hinter URL; gleiche URL auf mehreren Seiten; Umgang mit den Disku-Abschnitten vorangegangener Botläufe).
      • Von einem kleinen Kategorien-Teilbaum bekäme nur die begrenzte Gruppe an Sachverständigen etwas mit; breites Feedback aus der Community ist auf diesem Weg nicht zu erwarten.
    6. Die systematische und effiziente Abarbeitung -zigtausender Weblinks in den sich anschließenden 12 Monaten muss vor der heißen Phase minutiös geplant und die Syntax getestet worden sein; alle erforderlichen Informationen sind bereits einzubringen.
      • Wenn der Bot durchgelaufen ist, ist es zu spät. In den nächsten zwölf Monaten wird es keinen weiteren Versuch geben. Ein bisserl Rumprobieren und beim Buchstaben K dann mal nachbessern ist nix.
      • Gelernte Lektionen:
        • Alle relevanten Informationen müssen innerhalb der Vorlagensyntax eingeschlossen stehen, damit sie der systematischen Auswertung zugänglich sind.
        • Es muss unbedingt unterstützt werden, dass die unerreichbaren URL per Domain systematisch abgearbeitet werden können.
          • Wer sich in „seinem“ Fachgebiet auskennt, weiß auch von „seiner“ Fachzeitschrift um die Organisation der Website, und wenn sich deren Archivlinks geändert haben, dann weiß man auch, wo und wie man in diesem Archiv am effizientesten die neuen URL findet. Außerdem stehen die meisten Weblinks in Artikeln aus dem eigenen Fachgebiet, und da kann man bei der Gelegenheit gleich noch dies und das erledigen.
          • Was aus den Domains ard.de zdf.de tagesschau.de usw. stammt, ist sehr wahrscheinlich depubliziert. Da kann man sich in die näheren Umstände einarbeiten und etwa halbautomatisch die {{Tagesschau.de}} um die URL herum einfügen. WSTM kann dabei das Grundgerüst liefern, das aber noch manuell gemäß individueller Formatierung nachgearbeitet werden muss. Viele Tausend Weblinks lassen sich so effizient abarbeiten.
          • Die bisherige angeblich systematische Organisation beruhte darauf, dass man sich nach sogenannten „Tageskategorien“ diejenigen Disku-Seiten vornahm, die an einem bestimmten Datum zuletzt irgendwie verändert wurden. In der ersten Phase entsprach das der alphabetischen Folge der Lemmata, also aller, deren Titel mit Me–Mi begann. Diese entstammten tausenderlei Themen und krankten an -zigtausend verschiedenen Domains. Ohne irgendwelcher Kenntnisse der Domains, die vielleicht einfach nur umstrukturiert waren, wurde wahllos irgendwas aus archive.org geholt und damit gefixt; auch egal, ob das inhaltlich die zu belegende Information stützt. Das hat in erster Linie durch ständige Fachkräfte im Themengebiet und ersatzweise nach Einarbeitung in die Struktur und Geschichte einer bestimmten Domain zu erfolgen, damit auch zügig die bestmöglichen Ersatzlinks gefunden werden.
          • Aus jüngerer Zeit stammt der irrwitzige Vorschlag von Boshomi, man solle auch in Zukunft immer nur ein paar zehntausend defekte Weblinks aus Tausenden zufällig zusammengewürfelter Domains zusammenstellen, die alle eins nach dem anderen irgendwie „fixen“ und danach erst die nächsten paar Tausend zufälliger Domains mit meist je einer URL pro wildfremder Domain auflisten und bearbeiten. Nichts dazugelernt.
          • Der bot möge auf seinem Server ein triviales Logfile offenlegen.
            • Format (ASCII) Zeile:
              curid | Titel | flags | URL
            • Das kann dann nach Häufigkeit der Domains und etlichen anderen Fragestellungen von allen Interessierten ausgewertet werden.
            • Insbesondere können die 100 häufigsten Domains identifiziert und für jede von ihnen eine individuelle Wartungskat angelegt werden. Zu den erwartungsgemäßen Spitzenreitern dürften ard.de, billboard.com oder YouTube gehören. Also kann man die Wartungskat für nicht erreichbare billboard.com irgendwelchen Musikportalen, Rock- und Pop-Redaktionen oder Diskografie-Projekten überantworten. Dort mag sich jeder seine Lieblingsband oder bevorzugte Musikrichtung herausfischen und deren Artikel nebenbei etwas aufpolieren.
    7. Der Umgang mit den Hinterlassenschaften vorangegangener Bot-Läufe in den Folgejahren muss vorher geplant werden, und entsprechende Vorkehrungen sind bereits zu treffen.
      • Alte URL-Hinweise, die wieder erreichbar sind oder überhaupt nicht mehr im Artikel vorkommen, sind zu entfernen.
      • Die Information über URL, die schon beim letzten Lauf nicht erreichbar waren, ist der erneuten Unerreichbarkeit beizugeben.
      • Die historischen Abschnitte sind irrelevant.
        • Sie sind mindestens nowiki-unwirksam zu machen, damit längst vergangene maschinell produzierte Relikte nicht die Spezial:Weblinksuche verkleistern.
        • Sie können eigentlich auch ohne Verlust aus der Disku gelöscht werden. Alle Informationen stehen in der Versionsgeschichte. Es ist nicht von enzyklopädischem Wert, dass vor fünf Jahren der Artikel mal ein Weblink auf eine Homepage enthielt, die schon seit drei Jahren unerreichbar ist. Die meisten URL – Domains und erst recht deeplinks – sind temporär und sehr vergänglich.
    8. Die Details des Botlaufs sind so zu planen, dass die arbeitenden Benutzer so wenig wie möglich belästigt werden.
      • Der Bearbeitungskommentar soll ungefähr lauten:
        Defekte Weblinks aufgelistet * Letzte Bearbeitung: Benutzername, Zeit.
        • Grund: für Benutzer, die pro Seite nur einen Eintrag auf der Beo sehen, wird der unmittelbar vorangegangene Diskussionsbeitrag überdeckt.
        • Gern auch mit dem Beginn des vorangegangenen Bearbeitungskommentars, soweit die Zeichenzahl reicht.
    9. Mit dem Abschluss ist eine Statistik vorzulegen.
      • Das ist auch notwendig, um den Fortschritt der folgenden Abarbeitung einzuschätzen.
      • 2012 waren keinerlei Angaben vorhanden. Geschätzt 190.000–200.000 Disku-Seiten mit unbekannter Anzahl von URL.
      • Die Anzahl der URL ergäbe sich aus der Zeilenzahl des oben geforderten Logfiles.
      • Die Anzahl der Artikel würde sich durch die Anzahl der Vorlagen-Einbindungen am Ende des Laufs ergeben, wenn dabei ältere Einbindungen ausgefiltert werden und bei Ende eines achtwöchigen Laufs nicht bereits die ersten Autoren ihre Artikel aufgearbeitet und die Einbindung wieder gelöscht hätten.

--PerfektesChaos 23:49, 31. Mai 2013 (CEST) kl.ergs 13:53, 1. Jun. 2013 (CEST)Beantworten

Im Augenblick kann ich das nicht im Einzelnen kommentieren, gestatte mir vorab eine Zwischenfrage: Gehst Du davon aus, dass Giftbot auch den nächsten Lauf macht, stehst Du in Kontakt mit Giftpflanze oder schreibst Du selbst ein entsprechendes Script? mW hat sich Gifti nämlich bisher bedauerlicherweise zu keiner einzigen Nachfrage bezüglich des weiteren Vorgehens geäußert.--Mabschaaf 00:05, 1. Jun. 2013 (CEST)Beantworten

  • Zurzeit gibt es für die Botbetreiber und Toolschreiber eine Menge zu tun: Der toolserver beginnt zu stottern, wmflabs läuft wohl noch nicht ganz rund. Alle Software muss an die neuen organisatorischen Bedingungen der Labs angepasst werden. Zum 1. Juli soll Labs fertig einsatzbereit zur Aufahme der Tools und Bots sein; vielleicht wird das aber auch Herbst. Eine Verlängerung der geplanten Migrationsphase um ein halbes Jahr erfolgte erst kürzlich.
  • Mit deinen Wünschen standest du bei Gifti zum denkbar ungünstigsten Zeitpunkt auf der Matte.
  • Ich rechne mit einem Bot-Lauf zu defekten Weblinks frühestens im Spätsommer oder Herbst 2013.
  • Ich habe keinen anderen Kontakt zu Gifti als du.
  • Meine obige Liste wäre noch um einen Punkt zu ergänzen, der implizit schon drinsteckt: Unterstützung der Bot-Betreiber bei der Konzeption und Koordination der Folgen und Projektorganisation.
    • 2012 ist das ziemlich bescheuert abgelaufen: Irgendwer schlug mal bei Bots/A auf und meinte: Ey, startet mal wieder so einen Lauf über defekte Weblinks wie vor ein paar Jahren schon mal. Und Gifti startete. Und bekam die ganze Dresche ab. Und vom Anfragenden und den ganzen Leuten, die nach dem Botlauf gierten, war nix zu sehen und zu hören.
  • Ich weiß nicht, ob und inwieweit Giftis Software für Weblinks überhaupt auf wmflabs läuft, und welchen Umfang die hier gewünschten Anpassungen hätten. Meine hinsichtlich Lua wären jedenfalls nur eine Winzigkeit im Ausgabeformat.
  • Jeder andere Bot-Betreiber kann sich das erforderliche Programm nach Gusto konzipieren und in seinem Stil den gewünschten Output produzieren. Das Kapieren und das Testen dauert am längsten, bis alle Wünsche erfüllt sind und es mit größtmöglicher Sicherheit richtig funktioniert.
  • Ich selbst hätte zwar das Know-How, aber weder Lust noch Zeit, mich in die Rahmenbedingungen auf dem Server einzuarbeiten. Ich halte 2 MB JavaScript-Quellcode am störungsfreien Funktionieren und bringe seit zwei Monaten schwerpunktmäßig den Lua-Einsatz ins richtige Fahrwasser.
LG --PerfektesChaos 13:53, 1. Jun. 2013 (CEST)Beantworten
Bearbeiten

Hast Du auch schon eine Planung, wie Du mit toten Links umgehen willst, die schon mit der Vorlage:Toter Link markiert sind? Bekommen die auch eine Zeile in der Meldung auf der Disku?

Und weiterführende Frage, hier sicherlich aber am falschen Ort: Hast Du auf Deiner Agenda, die Vorlage zu überarbeiten? Ich finde sie vor allem hinsichtlich des angezeigten Textes mehr als suboptimal. Hat der Parameter checked= eigentlich eine Existenzberechtigung? --Mabschaaf 11:57, 8. Jun. 2013 (CEST)Beantworten


Ich habe Vorlage:Toter Link nicht nur nicht auf der Agenda, sondern ausdrücklich geblacklisted; einschließlich Vorlage:WBA, Vorlage:Wayback, Vorlage:Waybackarchiv, ausgenommen die klassische Vorlage:Webarchiv. Ich finde sie und ihre Kollegen aus vielerlei Gründen suboptimal. Mit diesen Gebilden beschäftige ich mich nur noch, wenn ich es aus wartungstechnischen Gründen unbedingt muss.
  • Hat der Parameter checked= eigentlich eine Existenzberechtigung?
    Der anscheinend weniger; wohl aber der überhaupt nicht mehr dokumentierte date.
    Ich habe nach dreimaligem Lesen der Doku zu checked nicht begriffen, was dieser Parameter langfristig bewirken soll, warum er so heißt wie er heißt, und seit wann wir irgendwo ein meinName eingeben würden, und was die Konkurrenzveranstaltung zu date ergeben soll.
  • Die von mir geforderte Doku zu date wurde von den Helden und Heldinnen als nutzlos und überflüssig abgelehnt.
    date ist eine wichtige Info für diejenigen, die es zu fixen versuchen.
    Er wird nicht in der Ausgabe dargestellt, bleibt aber für Fixer sichtbar und könnte sogar verborgen in der Seitenansicht erscheinen; per CSS einblendbar.
    Vom angegebenen Monat hängt eine ganze Menge ab; in den Archiven tauchen defekte URL erst nach einem halben oder ganzen Jahr auf. Vor dem date Monat plus zehn hat es keinen Sinn, im Archiv zu gucken.
    Umgekehrt ist ein Server mitunter mal für sechs Wochen down, oder eine Website zieht um. Nach einem Jahr müsste ein Umzug abgeschlossen sein.
    In der enWP wird aus dem Monat des date eine Wartungskat gebildet, mittels derer man nach 12–18 Monaten gezielt die Situation überprüfen kann: en:Category:Monthly clean up category (Articles with dead external links) counter
    Boshomi hatte aber bei seiner gigantischen Fix-Umstellungs-Aktion bei allen vorhandenen Einbindungen der Vorlage:Toter Link alle bereits dokumentierten Wertzuweisungen von date konsequent herausgelöscht. Sie wurden dort seit etlichen Jahren verbucht und sind kompatibel mit der enWP; zumindest was den Parameternamen angeht.
--PerfektesChaos 16:32, 8. Jun. 2013 (CEST)Beantworten
<Einschub> Der Parameter "checked hat auch für mich keinen erkennbaren Sinn. Eine Hundefreundin hat mal darauf bestanden, und wurde als Kompromiss von mir akzeptiert. Ich bin in der Sache befangen, also gilt WP:sei mutig und mach was du für das Beste hältst. Was das Datum betrifft wäre es sehr hilfreich wenn ein Bot das Datum des ersten Erscheinen der Url in der Versionsgeschichte dort verspeichern würde. Das ist bei der Reparatur wesentlich hilfreicher als ein Datum, zu dem der Link schon Jahrelang unerreichbar ist. So ein Datum könnte dann auch als Standarddatum für die Weblinksuche eingetragen werden. Derzeit mache ich ähnliches im Anmerkungstext in den Wartungslisten: siehe z.B.: Wikipedia:WikiProjekt_Weblinkwartung/Toter_Link/Claim_September_2013_5  Frohes Schaffen, Boshomi ☕⌨☺ –  17:59, 21. Sep. 2013 (CEST)Beantworten


Leider ist Dir meine Eingangsfrage offenbar entgangen...
Eines werde ich bestimmt nicht machen: Mich in einen (alten) Konflikt zwischen euch einmischen. Ich bin lediglich an der Zukunft interessiert.
Ganz generell sehe ich das so: Die Vorlage:Toter Link (incl. aller von Dir genannten Brüder und Schwestern) dient dazu, tote Links im Artikel zu markieren. Du hast Dich einen Kilometer weiter oben schon mal vehement genau dagegen ausgesprochen. Ich sehe das jetzt mal aus dem Blickwinkel unserer "Kunden", den Nur-Lesern: Für die ist es deutlich servicefreundlicher einen wie auch immer gearteten Hinweis à la „(Weblink nicht mehr erreichbar)“ vorzufinden, als diese Erfahrung erst nach dem Anklicken machen zu müssen. Dazu hätte ich schon gerne ein Konzept - ob das jetzt heißt, dass man Tausende Vorlagen in Artikel kleistert oder das auch irgendwie anderes lösen kann, kannst Du sicher besser beurteilen.
Falls Du eine Idee dazu hast, die alle diese Vorlagen überflüssig macht (ohne dass deren Nutzen verloren geht) wäre das natürlich super.
Und psst, Du solltest vorsichtig mit der Verwendng der Bezeichnung "Fixer" sein, das könnte zu Missverständnissen führen ;-) --Mabschaaf 20:55, 8. Jun. 2013 (CEST)Beantworten
Ich sehe die Situation innerhalb des Artikel-Quelltextes als völlig hoffnungslos an und habe ob der Sturheit und Uneinsichtigkeit der Beteiligten mit ihren verschiedenen gegeneinander arbeitenden Vorlagen schon vor längerer Zeit aufgegeben (=blacklist). Hauptproblem ist das Missverhältnis zwischen dem tatsächlichen Können in Vorlagenprogrammierung, Werkzeugeinsatz und organisatorischen Abläufen auf der einen Seite und der eigenen Überzeugung von der Richtigkeit des mit untauglichen Mitteln eingeschlagenen „einzig richtigen Wegs“ als Einzelkämpfer. Daran ist mit Technik nichts zu ändern. Bemäntelt wird das eigene Unvermögen dann mit der freien Erfindung nicht-existenter technischer Fachausdrücke, oder mit persönlichen Angriffen gegen Sachkritik.
Hier bemüht sich Flominator, von der nach persönlichem Einzelgeschmack geleiteten individuellen Umkrempelung des Artikelbestandes weg und zu einer Lösung zu kommen.
Im Prinzip sind alle derzeitigen oben aufgezählten Vorlagen redundant zur derzeitigen oder zukünftig um Parameter erweiterten Vorlage:Internetquelle. Mittelfristig kann diese integriert über ihre Parameter die gesamte Aufgabe übernehmen, und alle anderen fünf können getonnt werden.
Die Vokabel „Fixer“ verwende ich bewusst doppeldeutig und habe weiter oben schon zwischen Gelegenheitsfixern und Schwerst-Abhängigen unterschieden.
Schönen Abend --PerfektesChaos 21:15, 8. Jun. 2013 (CEST)Beantworten
Seufz. Ich fasse mal zusammen:
  • Es gibt also offenbar keine Möglichkeit, einen defekten Link im Artikel mit einer sichtbaren Markierung zu versehen, wenn er nicht mittels irgendeiner Vorlage eingebaut ist.
  • Ein Standard-Weblink in Wiki-Format [url titel] muss in eine Vorlage umgebaut werden, wenn dieses Ziel erreicht werden soll.
  • Wunschziel wäre die ausschließliche Verwendung von Vorlage:Internetquelle (mit Parameter offline)
  • ...aber Vorlage:Webarchiv wird momentan noch auf jeder Artikeldisku mit defekten Links in der roten Box promoted.
Ich sehe hier schlicht das Problem, dass es bisher keinen geeigneten (und genügend wahrgenommenen) Diskussionsort dafür gab, um sich auf gemeinsame Ziele und gangbare Wege dorthin zu verständigen. Dass Vorlage:Webarchiv vielleicht nicht optimal ist, höre ich jetzt zum ersten Mal, ich habe die Vorlage heute Mittag noch in einen Artikel eingebaut. Auch hier ist ja bestenfalls Besenkammer. Ebenfalls schönen Abend --Mabschaaf 21:44, 8. Jun. 2013 (CEST)Beantworten
  • Die Vorlage:Webarchiv ist halb so wild; sie war zu ihrer Zeit sinnvoll und es spricht in näherer Zukunft nichts dagegen, dass du sie einbaust. Sie stammt aus 2008, würde aber mit einer aufgefrischten Vorlage:Internetquelle redundant werden, weil diese das Gleiche leisten kann / können wird.
  • Die Sorgenkinder sind ihre Konkurrrenzprodukte aus 2012.
  • Vorlage:Toter Link ist in ihrer Zeit sinnvoll gewesen, wurde 2012 verbastelt und wäre mit einer zukünftigen Vorlage:Internetquelle redundant, oder ist es vielleicht heute schon. Weil Vorlage:Internetquelle aber auf dem Weg zur völligen Neuprogrammierung ist, habe ich es aufgegeben, noch einen Gedanken an das alte Zeugs zu verschwenden.
  • Es gibt also offenbar keine Möglichkeit, einen defekten Link im Artikel mit einer sichtbaren Markierung zu versehen, wenn er nicht mittels irgendeiner Vorlage eingebaut ist.
    • Das trifft nicht zu; siehe #Darstellung im Artikel mittels JavaScript. Es geht ohne irgendeine Veränderung des Quelltextes mit jedem beliebigen Artikel gleich welcher Formatierung. Braucht aber das JavaScript-Tool.
Geruhsamen Abend --PerfektesChaos 22:40, 8. Jun. 2013 (CEST)Beantworten

Die Vorlage:Waybackarchiv ist nun vollständig entbunden. (WBA somit hinfällig). Frohes Schaffen — Boshomi ☕⌨☺17:41, 28. Jun. 2014 (CEST)Beantworten

...und inzwischen auch gelöscht. Frohes Schaffen — Boshomi ☕⌨☺18:32, 28. Jun. 2014 (CEST)Beantworten

Kommunizieren?

Bearbeiten

Euch ist allen klar, dass diese Seite hier ein ziemliches Hinterzimmer der WP ist. Ich würde gerne vermeiden, dass auch diesmal wieder der Aufschrei groß ist, weil die Community nicht rechtzeitig von den Planungen informiert wurde. Spräche denn irgendetwas dagegen, beispielsweise mit einem kurzen Kurierartikel auf diese Seite aufmerksam zu machen und weitere technisch Interessierte zur Diskussion einzuladen? --Mabschaaf 13:25, 17. Jul. 2013 (CEST)Beantworten

Ja.
Dies hier ist die Lua-Werkstatt, und hier diskutieren in die konkrete Abwicklung Involvierte über technische Realisierungsmöglichkeiten.
Wenn du weitere technisch Interessierte einbeziehen möchtest, sprich sie bitte direkt an und lade sie hierher zur Mitwirkung ein.
Wenn du eine breite Öffentlichkeit zur Abgabe von allerlei Protesten, Bedenken, Wunschträumen, Vorab-Beschwerden über gar nicht stattgefundene Vorfälle und Gejammer dass es alles zu schwer zu verstehen sei irgendwohin locken möchtest, ohne dass etwas konkretes herauskäme, dann flute bitte das Projekt DLW oder sowas.
Im Moment ist überhaupt nicht absehbar, dass irgendwas passiert; es gibt weder eine neue Bot-Programmierung, noch einen robusten Server dafür; nicht nur keinen konkreten Monat, sondern auch auf die Jahreszahl 2013 würde ich mich nicht festlegen wollen.
Die Zahl der Techies ist sehr überschaubar; ich kenne sie wohl alle, und sie sind ausnahmslos gut ausgelastet.
VG --PerfektesChaos 13:45, 17. Jul. 2013 (CEST)Beantworten
Hätte ich diese Antwort nicht irgendwie erwartet, hätte ich gar nicht erst gefragt ;-)
Nein, im Ernst, auch 2012 ist die große Gegenwindwelle hereingebrochen, weil alle erst über ihre geflutete Beo von der Aktion erfahren haben. Ich denke, rechtzeitig zu kommunizieren ist ganz entscheidend (siehe dazu auch das hier - und nahezu jedes andere Projekt der Entwickler). Die Community möchte das Gefühl haben, gefragt und mitgenommen worden zu sein. Den richtigen Zietpunkt hierfür muss man eben mit Fingerspitzengefühl finden.--Mabschaaf 13:57, 17. Jul. 2013 (CEST)Beantworten
  • Kommunizieren mit der Community gerne; siehe WD:NEU#watchlistnotice zu neuer Anmeldeprozedur.
  • Deine Eingangsfragestellung ist aber inkonsistent in Absicht, Zielgruppe und Mittel:
    • Willst du mit der breiten Öffentlichkeit kommunizieren?
      • Gerne, aber dann nicht auf dieser (aus gutem Grund) ruhigen Hinterzimmer-Seite, sondern im zuständigen WikiProjekt.
      • Werde dir aber vorher ganz klar darüber, was die Fragestellung sein soll, worüber du diskutieren möchtest, was dabei herauskommen mag?
      • Wenn es nur eine Sammlung von Ideen und Problematiken sein soll, dann bietet die Auswertung der Aktion 2012 Material in Hülle und Fülle. Es ist jetzt schon kompliziert genung und hat Stoff für mehrere Wochen Programmierarbeit.
    • Willst du „technisch Interessierte zur Diskussion einladen“?
      • Dann ist ein Artikel im WP:K definitiv der falsche Weg.
      • Es gibt keine unbeschäftigten Techies, die däumchendrehend nur auf Kurier-Artikel warten.
      • Um sich in die Aufgabenstellung einzuarbeiten und hier kompetent mitwirken zu wollen, braucht es schon eine Weile (mehrere Tage). Was mal so eben frei von der Leber weg geplappert wird, führt nicht weiter.
      • Dies hier (bzw. umseitig) ist eine Arbeitsplattform und keine Diskussionsseite zu allgemeinen Ansichten.
  • Im Moment steht nur im Raum, dass in irgendeinem Jahr der Botlauf wiederholt werden soll, und dass die beim letzten Lauf generierten Abschnitte im selben DS-Edit so unschädlich gemacht werden müssen, damit die Weblinksuche nicht mit automatisch generierten Ruinen vermüllt wird von jenem und dem kommenden und dem darauf folgenden Bot-Lauf. Und dass zusätzlich das Fachportal Musik eine Liste aller Artikel hat, in der unerreichbare deeplinks auf billboard.com stehen.
  • Wenn etwas Produktives bei dieser Diskussion herauskommen soll, dann wäre es die verbindliche Entscheidung dreier Fragen:
    1. Sollen Abschnitte aus 2012, in denen nur die Signatur des Bots auftritt, ersatzlos gelöscht werden? Oder soll jede tote URL einzeln mit nowiki unwirksam gemacht werden, die Überschrift geändert und der Abschnitt der Archivierung überlassen oder ewig stehn bleiben?
    2. Was soll mit komplett abgearbeiteten DS geschehen, die nur die nicht mehr problematischen URL aus 2012 oder nicht einmal das enthalten (Frage offen seit fast einem Jahr)?
    3. Was soll mit den sonstigen Abschnitten aus 2012 geschehen, die weder unter 1. noch gar 2. fallen?
VG --PerfektesChaos 15:06, 17. Jul. 2013 (CEST)Beantworten
Hoi, ich will Dich hier weder ausbremsen noch zumüllen. Dass ihr alle gut zu tun habt, ist mir völlig klar. Die Frage ist einfach nur, wie lange kann man hier ganz entspannt vor sich hinentwickeln bzw. wie viel Zwischenergebnis will man schon vorzeigen können, bevor man sich tatsächlich an alle wendet. Und wann ist genau der Zeitpunkt überschritten, nach dem viele das Gefühl haben: Ich bekomme hier etwas übergestülpt, das an meinen Erwartungen/meinem Bedarf vorbeigeht?
Zu Deinen drei Fragen meine persönliche Meinung:
  1. Eine unveränderte Bot-Nachricht (bzw. eine mit tw. gelöschten Zeilen) kann problemlos durch eine neue/aktuellere/bessere ersetzt werden.
  2. Eine Lösung für abgearbeitete DS (auf die von Benutzern ein SLA hätte gestellt werden können, was aber unterlassen wurde) könnten evtl. als Kompromiss eine Wartungskat erhalten. Dann kann die Community später noch entscheiden, was damit passieren soll. Vielleicht kommt dann ja irgendwann ein MB zu einem Entschluss.
  3. Habe gerade keine Vorstellung, was das sein könnte. Prinzipiell würde ich sagen: Links entschärfen, damit die Weblinksuche nutzbar bleibt. Im Vorfeld: Beispiele sammeln und dann nochmal zur Diskussion stellen.
Entspannte Grüße --Mabschaaf 15:28, 17. Jul. 2013 (CEST)Beantworten


Ich habe dich immer noch nicht verstanden.

  • Worüber möchtest du mit wem diskutieren – zum Thema „übergestülpt“?
    • Die einzige Fragestellung ist dann „Soll es überhaupt noch einen Botlauf geben, oder nie wieder?“ – Das kannst du ja gern machen; aber in dem Moment, in dem eine solche Frage breit diskutiert wird, werden sämtliche Programmierarbeiten eingestellt; und erst dann wieder aufgenommen, wenn das Ergebnis dieser Debatte endgültig und offiziell feststeht.
    • Ansonsten bliebe nur verbindlich zu klären, was mit den Überbleibseln von 2012 geschehen soll.
    • Was willst du denn sonst noch diskutieren? Über zwei geschweifte Klammern, die der fundamentale Unterschied sind zwischen dem vorherigen Lauf und der umseitigen Neukonzeption? Und dass der Trick ist, dass sämtliche Angaben einschließlich aller URL und der Info über aktuellen oder früheren Lauf in diese Klammern eingeschlossen sind; und dass man damit die Art der Kiste (Bedienungsanleitung oder Kurzinfo) steuern kann, alle URL unsichtbar und unwirksam machen kann? Ohne auf irgendeiner Disku und damit Beo etwas ändern zu müssen? Und nebenbei Wartungskats nach Domain oder gar speziellem Pfad für Fachredaktionen bilden kann. Das willst du auf Basis eines Kurierartikels durchdiskutieren? Was für Klammerpositionen erwartest du denn von der Leserschaft des Kurier als Diskussionsergebnis?
  • Zwischenergebnis – was denn für ein „Zwischenergebnis“??? Zu dem Zeitpunkt ist die Bot-Analyse bereits fertig gelaufen, und es wird gewarnt vor baldigem Aufschlagen auf der Beo. Erklärt werden kann, dass diesmal etliches anders laufen wird; beispielsweise nicht mehr alphabetisch nach Lemma, so dass an einem Tag zu Hunderten „Tetra“ auf der chemischen Beo aufschlagen, und an einem anderen Tausend „USS“ die Marine-Autoren fluten. Und dass es sehr viel bessere Auswertungsmöglichkeiten geben wird.
    • Oder glaubst du ernsthaft, dass wir erst wochenlang programmieren, und nach Abschluss der mehrwöchigen Botanalyse wir nach dem dritten Artikel stoppen, drei Monate über das „Zwischenergebnis“ diskutieren, und überlegen, ob wir die gesammelten Infos und die Programmierung vielleicht doch in die Tonne kloppen?
    • Entscheidend ist, dass sämtliche Infos innerhalb der geschweiften Klammern stehen, und dass jede Artikel-Disku nur ein einziges Mal angefasst wird, um 2013 zu schreiben und 2012 zu entsorgen. Wenn alle Daten in die Einbindung einbezogen wurden, kann man nachträglich sonstwas damit anstellen, ohne eine einzige Artikel-Disku verändern zu müssen.
    • Ein „Zwischenergebnis“ wird es nicht geben. Sobald die Bot-Programmierung abgeschlossen ist, beginnt die Lua-Programmierung und abschließend auch nachträglich die JavaScript-Programmierung. Wann wlllst du dir da welche Zwischenergebnisse begucken? Und was soll aus deiner Inspektion dieser Zwischenergebnisseherauskommen, wenn du die Bot-Programmierung gesehen und begutachtet hast?
  • Den Fall 3 hast du hier aufgebracht, als du ihn in den Thread „Bot-Prozedur“ eingetaktet hattest.

VG --PerfektesChaos 10:13, 18. Jul. 2013 (CEST)Beantworten

Hi, nein, für mich geht es nicht um die Frage, ob es weitere Botläufe geben sollte (obwohl auch das andere sicher anders sehen). Jeder defekte Weblink ist ein Mangel und sollte behoben werden.
Mit Zwischenergebnis meine ich beispielsweise die Testphase auf β-Wiki. Irgendwann muss sich irgendwer ja mal anschauen können, was Du programmiert hast - und darauf auch ein Feedback geben. Ich sehe da übrigens durchaus eine mögliche Trennlinie zwischen dem Einsammeln der Daten zu den tatsächlich defekten Links in den WP-Artikeln und der Benachrichtigung auf der Disku mit all ihren Funktionen. Um nur das zu testen (oder zu zeigen) kann man einfach mal davon ausgehen, dass alle Links im Artikel defekt sind und das genau so melden. (Natürlich nur im Testwiki!)
Fall 3 heißt also allgemein: Bearbeitete GiftBot-Meldungen, bei denen mehr verändert als nur einzelne Zeilen gelöscht wurde. Hm. Ich würde sagen: (Bot-)Finger weg, maximal Überschrift ändern, Wartungskat ergänzen o.ä. Muss man sich wohl immer individuell anschauen.
Auch hierfür bräuchte man erstmal ein Set von 100(?) um beurteilen zu können, wie die Änderungen überhaupt aussehen können, dann kann man mehr zu einer evtl. automatisierten Abarbeitung sagen. Sonnige Grüße --Mabschaaf 14:05, 18. Jul. 2013 (CEST)Beantworten


Tools für die Abarbeitung nach dem Botlauf

Bearbeiten

Darstellung im Artikel mittels JavaScript

Bearbeiten

Vorab:

  • Die dynamische Markierung verändert rein gar nix am Quelltext des Artikels; es gibt keine edits, es taucht nichts in der VG auf, der Quelltext wird nicht durch seltsame Vorlagensyntax verunstaltet.
  • Der Funktionsumfang von defekterWeblinkBotVorlage kann entsprechend ausgebaut werden; dieses kann nach einigen Sekunden API-Kommunikation die Bot-generierte Vorlage auf der Disku lesen und umsetzen.

Wirkung:

  1. Am Kopf des Artikels steht eine einklappbare Liste der defekten URL sowie Zusatz-Informationen in gleicher Form wie auf der Disku.
  2. Alle Links auf diese defekten URL werden im Artikeltext optisch hervorgehoben; etwa mit einem Rahmen in magenta.
  3. Zwischen den URL und der Liste im Kopfbereich kann hin und her verlinkklickt werden wie zwischen <ref> und <references>.
  4. Im Normalfall sehen JS-Aktivisten erstmal nur den gleichen, nicht verwirrenden Schlicht-Umfang, wie er auch mit Lua auf der Disku generiert wird.
  5. Wer kompliziertere Extra-Links auf allerlei externe Tools und URL-Segmente sehen will, kann sich einen JS-Aktivator zuschalten und bekommt das dann ebenfalls angezeigt. Das betrifft erfahrungsgemäß am Ende des Tages zwei oder drei Benutzer.
  6. Der Zustand URL-Liste „eingeklappt“ oder „ausgeklappt“ wird in einem Cookie abgelegt und gilt für die nächsten Tage für die nächsten Artikel, bis er wieder geändert wird. Startwert ist „ausgeklappt“.

--PerfektesChaos 16:32, 8. Jun. 2013 (CEST)Beantworten

Realisierung so ähnlich umgesetzt; kleine Details besser abweichend, zeigte sich --PerfektesChaos 22:32, 11. Feb. 2014 (CET)Beantworten


HTTP Status Code 301

Bearbeiten

Wenn ein 301 gefunden wird, kann dann auch die neue, nun gültige Adresse ausgelesen werden? Falls ja, dann sollte diese als Korrekturvorschlag genannt werden. Viele 2012er-Bug-Meldungen basieren darauf, dass auf eine gültige Adresse weitergeleitet wird und Otto-Normalanwender gar nicht klar ist, weshalb dann der Link als defekt gemeldet wurde.--Mabschaaf 19:27, 27. Dez. 2013 (CET)Beantworten

Das Probelm hierbei ist, dass mache Webadmins einfach nur einen Surface-Link als Ziel angeben, nicht die ursprüngliche Seite in einem eigenen Archiv vorhalten. Da braucht man zumindest den Seitentitel oder anders Signifikantes um das korrekt zu erkennen. Ist das Linkziel nur ein Surface-Link, sollt eigentlich der Link markiert werden, ist aber bei manchen Domains recht schwierig. Wenn z.B. ein pdf plötzlich nur noch den Domainnamen trägt, dann kann man mit Sicherheit davon ausgehen, dass der Link tot ist. Wird auf eine belanglose Unterseite weitergeleitet, hat der Bot keine Chance das zu erkennen. Frohes Schaffen — Boshomi ☕⌨☺   20:20, 27. Dez. 2013 (CET)Beantworten
Danke für die Erläuterung. Dennoch denke ich, dass in vielen Fällen es nützlich sein kann, das neue Linkziel zu zeigen, beispielsweise in der Form
  • [http://www.abc.de/inhalt/text.pdf] wird weitergeleitet auf [http://www.abc.de/content/text.pdf]. Möglicherweise sind die Inhalte jetzt dort zu finden.
Wenn die Weiterleitung nur auf die Domain erfolgt, lässt sich das ja feststellen und man kann sich den Link direkt sparen. Meldungen wie
  • [http://www.abc.de/inhalt/text.pdf] wird weitergeleitet auf [http://www.abc.de/brokenlink.html]. Möglicherweise sind die Inhalte jetzt dort zu finden.
wird man natürlich technisch nicht abfangen können, dafür sieht man als Fixer sofort, dass der Klick wohl nutzlos ist.--Mabschaaf 19:24, 28. Dez. 2013 (CET)Beantworten
3xx-Weblinks wurden von Giftbot in der Regel als defekt gemeldet, wenn sie nicht auf eine "HTTP OK 200"-Seite weiterleiteten. Soweit ich das mitbekommen habe, gab es Meldungen von Weiterleitungen mit gültigem Ziel nicht häufig.
Falls es ein Anliegen ist, unter Weiterleitungen mit gültigem Ziel die wegen geänderten Inhalts zu korrigierenden finden zu können:
Damit die Abschnittsüberschrift auf Diskussionsseiten "Defekter Weblink" stimmt und um möglichst selten nicht zu korrigierende Weblinks anzugeben ("falsch positive"), braucht es recht einschränkende Kriterien, zum Beispiel:
- Weiterleitung einer PDF-Datei auf die (Sub-)Domain (wie oben von Boshomi genannt)
- mehr als n verschieden geschriebene URLs leiten auf dieselbe (gültige) URL weiter. (n > 2?)
Mit Weiterleitungen ohne HTTP-Fehler hat man sich bisher noch nicht systematisch befasst. Der sinnvollste Ansatz wäre vielleicht, Giftbot produziert nebenbei die Liste der Weiterleitungen ohne HTTP-Fehler, und dann könnte man Kriterien Schritt für Schritt aufweichen und die Häufigkeit zu korrigierender Weblinks bestimmen. Das wird behindert dadurch, dass der Inhalt dieser Liste schnell veraltet, deshalb müßte ein nicht geringer, zufällig ausgewählter Teil der Liste in wenigen Wochen bearbeitet werden. Ich halte es für eher unsicher, ob das gelingt und dabei was Brauchbares für spätere Botläufe herauskommt. --Thoken (Diskussion) 20:15, 6. Jan. 2014 (CET)Beantworten
Es ist vermutlich schwierig, im Nachhinein festzustellen, wie häufig das 2012 vorkam. Ich habe mir nur die Spezial:Linkliste/Vorlage:Defekter_Weblink_Bot/Wartung/BugGiftBot durchgeschaut und da waren einige drin (inzwischen abgearbeitet). Dort sind natürlich nur die gelandet, die tatsächlich von irgendjemandem als Bug gemeldet wurden. Vielleicht kann ja Giftpflanze mehr dazu sagen - einerseits, wie hoch der Aufwand wäre, meine Wünsche von oben zu programmieren und die Daten zu sammeln, andererseits, ob ggf. noch die Statuscodes von 2012 vorliegen, um sie statistisch auswerten zu können.--Mabschaaf 22:27, 6. Jan. 2014 (CET)Beantworten
Nochmal von vorn, sorry, ich habe anscheinend Probleme, zu verstehen, wozu du das für hilfreich hältst. Du schlägst vor: Die URLs der Weiterleitungsziele, deren Aufruf durch den Bot den HTTP-Fehler liefert, sollen angegeben werden. OK, vielleicht nicht schlecht. Dann aber hast du's mit dem Benutzer, der bei sich eine korrekte Weiterleitung feststellt. Wobei hilft dem diese Angabe?
  1. Korrekturhilfe? Bei funktionierenden Weiterleitungen sollte nur aus triftigem Grund was geändert werden.
  2. Feststellung, dass dieses Weiterleitungsziel beim Benutzer oder inzwischen ein anderes ist als das vom Bot vorgefundene? Damit weniger Giftbot-"Bugs" gemeldet werden? Giftpflanze löscht die Meldungen mit links ;) --Thoken (Diskussion) 20:56, 7. Jan. 2014 (CET)Beantworten
@Thoken: ;-) Wir scheinen ein Faible dafür zu haben, aneinander vorbei zu reden. Also auch noch mal von vorne: GiftBot hat 2012 Links als defekt auf Diskus geschrieben, die 301 waren (zumindest kann ich mir nicht vorstellen, dass sie zum Zeitpunkt des Prüfens tatsächlich 404 waren und erst später 301 wurden). Dann kamen fleißige Fixer und stellten fest: Klappt aber doch! Und fügten das /Bug an die Vorlage. Die habe ich nun kontrolliert (waren schon einige mit gemeldetem Bug und zu nahezu jedem davon jeweils ein paar weitere unabgearbeitete auf die gleiche Domain) und siehe da: häufig eben 301 mit WTL auf 200.
Daher nun meine Annahme: Giftbot hat 2012 wohl alle 301 gemeldet, unabhängig davon, ob sie auf eine 200 weiterleiteten. Die Folgerung: Sollte das dieses Mal wieder geschehen, dann doch bitte als Korrekturvorschlag auch die 200er-Adresse angeben.
War das nun verständlich und nachvollziehbar?--Mabschaaf 21:08, 7. Jan. 2014 (CET)Beantworten
Alle Weiterleitungen wurden aufgelöst (falls im Log dann doch ein 300er steht, war der Server defekt, wie ich durch Stichproben herausgefunden habe). Wenn der Statuscode am Schluss korrekt war, dann wurde kein Fehler gemeldet. Allerdings sind jetzt viele Seiten zusammengekommen, wo der Link dann später doch ging. Meine Schlussfolgerung: noch öfter/länger prüfen. – Giftpflanze 22:06, 7. Jan. 2014 (CET)Beantworten
Danke für die Rückmeldung, damit ist dieser Abschnitt gegenstandslos geworden.--Mabschaaf 22:13, 7. Jan. 2014 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 22:13, 7. Jan. 2014 (CET)


Was soll mit einer vollständig geleerten Disku-Seite geschehen?

Bearbeiten

Wenn entweder der Bot erledigte Abschnitte der Vorjahre komplett entfernt oder sich die Artikel-Autoren entscheiden, die wertlosen ex-URL zu löschen:

  • Soll die leere Disku einheitlich administrativ per SLA gekillt werden und ein redlink generieren,
  • oder soll sie mit einem This page is intentionally left blank bluelink sein und erklären, dass nichts draufsteht?

Welche Handlungsanweisung wird für diesen Fall in der Hinweisbox gegeben; was schreibt WLW dazu?

--PerfektesChaos 16:32, 8. Jun. 2013 (CEST)Beantworten

Ich habe das Meinungsbild überarbeitet, so dass die Platzierung rausfällt. Das könnten wir dann demnächst zur Abstimmung stellen. – Giftpflanze 00:45, 9. Dez. 2013 (CET)Beantworten


Optische Darstellung

Bearbeiten

Hier mal ein paar Gedanken, was man machen könnte (und Du darfst kommentieren, ob man tatsächlich kann):

  • Diskuseite: Dreistufige Darstellung
    • Standard für alle ist Stufe 1, es sei denn, an den persönlichen Einstellungen (Gadget, .css, .js) wurde gedreht
    • Stufe 1: In einem Diskuabschnitt "Defekte Weblinks" Nur eine schlichte Meldung: „Der Artikel enthält defekte Weblinks: anzeigen“. Der Button "Anzeigen" aktiviert Stufe 2
    • Stufe 2: entspricht weitgehend der jetzigen Darstellung (also Hinweisbox, die aber knapp gehalten, Auflistung der defekten Links, aber ohne viele Zusatzfunktionen), weiterer Button weitere Informationen - der zeigt Stufe 3
    • Stufe 3: alle Informationen und hilfreiche Funktionen (Weblinksuche, seit wann offline, etc. - einfach alles, was das neue Tool kann)
  • Generelle Anmerkung dazu: Langfristig könnte ein solches Konzept genutzt werden, um auf allerlei Wartungsbedarf in einem Artikel aufmerksam zu machen, beispielsweise könnten auch die namenlosen Weblinks hier mit erwähnt werden, so vorhanden. Nur die Überschrift wäre dann noch anzupassen etwa zu "Wartungsbedarf". Und keiner (vor allem: Kein unangemeldeter Nur-Leser) würde direkt auf der Disku von einem riesigen Abschnitt erschlagen.
  • Artikelseite:
    • Ähnlich dem BKL- oder Falschschreibungs-Helferlein eine Möglichkeit, die auf der Disku gemeldeten defekten Links optisch (nicht im Quelltext!) markieren zu lassen, sei es durch
      • farbige Hinterlegung (oder anderen einstellbaren Attributen, also als eigene css-Klasse)
      • oder ein hochgestelltes [Tot]
        • gerne mit individuell definierbarem Text, gerne ebenfalls als eigene css-Klasse
        • wahlweise direkt nach dem Link (bei EN nur innerhalb des Abschnitt „Einzelnachweise“) und/oder
        • bei EN: direkt bei der EN-Nummer im Text

Ich sehe Dich schon seufzen: „Der spinnt ja!“ - aber vielleicht hattest Du ja ähnliches im Sinn.--Mabschaaf 21:25, 1. Jun. 2013 (CEST)Beantworten

Ich seufze nicht, und ich hatte nichts derlei im Sinn. Im Einzelnen:
  • Dreistufige Darstellung
    • Setzt voraus, dass JavaScript aktiviert ist, und dass die Leser in ihren Common.js ein Gadget installiert hätten (was IP ganz ausschließt und den Personenkreis angemeldeter Benutzer auf eine Handvoll begrenzt) oder dass ein solches Gadget zwangsweise für alle Benutzer aktiviert wird (was definitiv nicht die Politik der Technischen Abteilung ist).
    • Anders könnte man immer nur Stufe 1 lesen.
    • Die allgemeinverständlichen Informationen soll hingegen jeder unter allen Bedingungen lesen können.
    • Besonders abgefahrene Spezialwerkzeuge (wie von Thoken benannt) werden hingegen nur hartgesottenen Spezialisten über CSS-Maßnahmen eingeblendet.
  • Generelle Anmerkung
    • Wiedervorlage 2014
  • Artikelseite
    • Das ist keine besondere Schwierigkeit; sondern relativ simpel.
    • Es gibt bereits defekterWeblinkBotVorlage, der ein solches Highlighting in Gegenrichtung vornehmen kann, und das ohnehin bereits 22 Benutzer einsetzen (warum du eigentlich nicht?).
VG --PerfektesChaos 21:52, 1. Jun. 2013 (CEST)Beantworten
Hm, schade, dass das so nicht klappt; aber eine Abstufung der sichtbaren Details via css ist ja immerhin eine (gute) Option.
Zu defekterWeblinkBotVorlage: Habe ich nicht im Einsatz, weil es bei meiner Arbeitsweise nicht hilfreich war; ich bin nicht zufällig über Seiten mit defekten Links gestolpert und habe die gefixt, sondern ich habe ganz gezielt die MerlBot-Liste abgearbeitet. Aber ich habe es jetzt mal für weitere Interessenten hier verlinkt. Ein Problem hier ist tatsächlich, dass es alles Mögliche an nützlichen Tools gibt, man sie aber nicht findet... --Mabschaaf 11:57, 8. Jun. 2013 (CEST)Beantworten


Was soll mit den Rückständen des Botlauf 2012 (oder früher) geschehen?

Bearbeiten
  1. Abschnitt schlichtweg löschen.
    • Die Weblinks stehen alle zum passenden Zeitpunkt in der VG des Artikels, so wie die URL dort teils über Jahre in Hunderten von Versionen mal gestanden hatten.
    • Die Disku-Seite ist nicht zur ewigen Dokumentation gedacht, dass es vor fünf Jahren mal URL gab, die schon seit drei Jahren futsch sind.
  2. Abschnitt umformatieren nach neuem Vorlagenformat (ohne Archivierungs-Verhinderung, ohne eine Hinweisbox, nur mit Liste der URL als einzelne Parameter eingeschlossen) mit Parameter: Lauf=2012
    • Die Vorlagenauswertung sieht, dass der Lauf nicht der aktuelle ist, und zeigt in der Darstellung der Disku-Seite lediglich an:
      2012 hatte GiftBot in diesem Artikel defekte Weblinks gefunden.
    • Wer das unbedingt genauer wissen will, kann im Quelltext nachgucken; da stehen dann noch alle URL.
    • Die kaputten URL sind unwirksam und unsichtbar und sülzen nicht die Weblink-Suche zu.

Die Frage ist definitiv zu klären, bevor der Bot beginnt, die Disku anzufassen.

--PerfektesChaos 16:32, 8. Jun. 2013 (CEST)Beantworten

Vorschlag: Löschen, neue Daten mit denen von 2012 vergleichen (habe ich noch auf dem Toolserver, daraus geht auch hervor, dass es 283595 verschiedene defekte Weblinks in 209948 Artikeln waren, wollte nicht jemand mal ne Statistik?), wenn Übereinstimmung, dann Flag 2012 setzen. – Giftpflanze 23:52, 8. Dez. 2013 (CET)Beantworten
PerfektesChaos, hast du zu meiner Antwort eine Meinung (oder jemand anderes), oder bist du einverstanden damit? – Giftpflanze 15:59, 24. Dez. 2013 (CET)Beantworten
  • Ich bin in dieser Frage strikter Abschnitts-Löscher; sowohl 2012 wie auch 2006 bis 2009.
  • Was noch auf der Disku-Seite steht und nicht um manuelle Kommentare nach der Bot-Signatur ergänzt wurde, wird gnadenlos gelöscht.
  • Es ist kein Zeichen von Souveränität der Autoren, jede schon seit Jahren verblichene URL auf ewig vor Augen haben zu wollen. Wenn es an dieser URL etwas zu konservieren gibt, weil sie selbst enzyklopädische Relevanz hätte und für den Artikelgegenstand wichtig sei, dann gehört das in den Quelltext des Artikels, ggf. auskommentiert, und nicht auf die Disku.
  • Das sind diese ewigen Zauderer, die nichts wegschmeißen können und sich eine schon 2006 ungültige URL noch auf die Disku schreiben; man weiß ja nicht, vielleicht könnte man sie ja 2020 doch noch zu etwas brauchen. Die URL-Struktur des Zeitungsarchivs hat sich ja geändert; das könnte wichtig sein? Damit müllt man allerdings alles zu und kann wesentliche neue Angelegenheiten nicht mehr finden.
  • Was auf der Archivseite steht, wird vom Bot nicht mehr gesehen und bleibt einstweilen.
  • Wenn es auf der Disku steht, dann hatten die Autoren anderthalb Jahre Zeit zum Fixen, Aufräumen, Archivieren und Umformatieren. Einfach Abschnittstitel stark verändern, Vorlage raus, fertig.
Sollte eine Komplettlöschung einen wilden Proteststurm hervorrufen (die „Hauptautoren“ beobachten ja ihre Seiten und können ihren gelöschten Herzensabschnitt einfach wieder einkopieren) und der Abschnitt unbedingt bleiben müssen, kann er immer noch in die neue Vorlage umformatiert werden. 2012 usw. als Lauf= dran und fertig.
Statistics appreciated.
VG --PerfektesChaos 14:41, 25. Dez. 2013 (CET)Beantworten

Realisierung in Lua

Bearbeiten

Mit Lua lassen sich verschiedene neue Effekte erzielen:

  • Das Archivlink kann aus der unerreichbaren URL ermittelt werden; erforderlich ist ein der URL vorangestelltes Schlüsselwort, das dokumentiert, dass ein so gebildetes Archivlink erfolgreich sein wird. Damit werden die Einträge kürzer.
  • Die Situation des „Satzzeichens hinter URL“ lässt sich detektieren und mit einer gesonderten Erläuterung versehen.
  • Genauso eine öffnende eckige Klammer, deren schließende mit der Wikisyntax kollidierte; dann kann auf %5B und %5E hingewiesen werden. Dito für ein Pipe-Symbol.
  • Auf Anfrage können für bestimmte Domains eigene Wartungskat gebildet werden:
    Kategorie:Wikipedia:Wartung Defekter Weblink Domain ard.de
  • Das Lua-Modul bindet die Untervorlage ein mit dem Text für die allgemeine Bedienungsanleitung.
  • Anschließend folgt die Liste der URL, ergänzt durch Archivlinks und andere Hilfestellungen.
  • Außerdem die Wartungskat, falls es sich um eine registrierte Domain handelt, für die das gewünscht ist. Hier wäre turnusmäßig die Liste anhand der aufgelaufenen Wünsche zu aktualisieren, was aber den Neuaufbau all der Diskussionsseiten nach sich zieht.

--PerfektesChaos 22:26, 21. Mai 2013 (CEST) update 11:20, 13. Jul. 2013 (CEST) updated PerfektesChaos 14:57, 25. Dez. 2013 (CET)Beantworten

Wäre es möglich, die für Kategorisierung relevanten Domains über eine Liste aktuell zu warten (z.B. als JSON) sodass diese automatisch über die Vorlagenprogrammierung verwendet werden können? (nicht signierter Beitrag von Boshomi (Diskussion | Beiträge) 11:57, 24. Jan. 2014 (CET))Beantworten
Nein; Lua hat keinen Zugriff auf JSON.
Konzeptionell vorgesehen habe ich ein Untermodul wie Modul:FileMedia/extensions oder Modul:Multilingual/codes, das besonders effizient mehrfach eingebunden werden kann und durch simple Struktur auch leicht zu bearbeiten ist.
Aus Performance-Gründen wird dies auf maximal 450 Kategorien beschränkt sein.
  • Es sind für eine Kategorie mehrere Muster einschließlich Pfad vorgesehen.
  • Es sollen in bestimmten Fällen nur solche URL kategorisiert werden, die bestimmte Anforderungen an subdomains und/oder Pfad-Muster erfüllen.
Durch die hohe Einbindungszahl ziele ich auf Vollschutz und Aktualisierung nach Wochen oder Monaten ab.
VG --PerfektesChaos 22:27, 24. Jan. 2014 (CET)Beantworten

Fragen von Giftpflanze

Bearbeiten

Hi! Da ich meine Fragen und Anmerkungen zu verschiedenen Aspekten nicht auf verschiedene Stellen dieser Diskussionsseite versteuen möchte und sie zum Teil noch gar nicht berührt wurden, ziehe ich sie hier in einen eigenen Abschnitt zusammen.

  1. Wenn abgearbeitete URLs ja aus der Vorlage entfernt werden sollten, dann sollten Abschnitte mit geleerten Vorlagen auch ganz entfernt werden und damit auch dadurch geleerte Diskussionsseiten gelöscht, um die Konsistenz zu bewahren.
  2. Was passiert mit den 2012er-Meldungen, die von menschlichen Benutzern bearbeitet wurden (in der Meldung/Diskussion nach der Meldung)? Wenn ich sie manuell abarbeiten müsste, würde ich sie nach #1 eh löschen.
  3. Wozu muss das Datum des Botlaufs angegeben werden? Warum muss angegeben werden, dass der Link auch beim letzten Mal schon defekt war? Wozu den Bot angeben? Warum eine Signatur? Wenn keine Signatur, warum dann ein nicht-archivieren-Baustein (hm, obwohl, ist nützlich, falls sich eine Diskussion anschließt)?
  4. Wie können dem Botbetreiber URLs gemeldet werden, die doch nicht defekt sind (oder evtl. nicht gefunden wurden)?
  5. Wie viele Bearbeitungen sollen an einem Tag maximal vorgenommen werden? Wie viele davon tauchen davon in einer beliebigen Beobachtungsliste auf und sind tragbar? Ist die Gesamtlaufzeit des Bots wichtig?
  6. Soweit ich sehe, wird die β-dewiki-Datenbank nicht auf labs repliziert (ich nehme nicht an, dass man mich direkt drauf zugreifen ließe, dafür ist das nicht konzipiert; eine extra Replikation? Keine Ahnung, ob das sinnvoll ist oder ob es gemacht würde (ich habe schlechte Erfahrungen mit der Erfüllung von Wünschen (zu wenig Leute, die haben keine Lust, haben anderes zu tun und alles dauert so lange) bei Wikilabs gemacht)). Da müsste man den Umweg über die API gehen :\
  7. Beim Logfile: Wozu curid (wohl vom Artikel zum Zeitpunkt der Prüfung/Linkerfassung? Oder von der Diskussionsseite?)? Das müsste ich erst extra gewinnen (ich habe nur el_from (pageid) und el_to (url)). Flags? Das wäre einmal der Statuscode (3xx/5/Ø, was genau bringt der?), sollen auch noch +, vorige Läufe, Archive angegeben werden? Braucht man das für die Auswertung?
  8. Ich habe mal mit webcitation.org experimentiert (ist aber leider schlecht erreichbar, vielleicht sollten wir das nicht durch zu viele Überprüfungen überlasten; und was bringt es, wenn damit gefixte Links dann auch nicht mehr erreichbar sein sollten?), da haben Archiv-URLs IDs, müsste man als Flag à la cit=ID o.ä. angeben.
  9. Dann bräuchten wir auch noch die Templatetiger-Datenbank auf Labs für die Vorlagenauswertung (Toter-Link-Vorlage, Archiv-URL-Parameter), das könnte noch ein paar Monate dauern, solange das Migrationsfenster noch offen ist. Im schlimmsten Fall müsste ich selbst etwas aus dem Hut zaubern (und das bereitet mir Kopfschmerzen). Und dann am besten noch eine eigene Instanz (virtuelle Maschine/Server) oder Projekt, damit wir die anderen mit dem Linktesten nicht stören.

Sorry, wenn einige Fragen in der Vergangenheit schon beantwortet wurden, aber dann habe ich den Sinn für bestimmte Vorkehrungen einfach vergessen. Und ich finds toll, dass es jetzt in allen Bereichen deutlich mehr Planung gibt. – Giftpflanze 06:11, 13. Jul. 2013 (CEST)Beantworten


Hi,
super, dass du dich hier meldest. Die Sonne geht auf, und es wird ein herrlicher Tag.
Ich versuche mal mein Glück:
Zu 1. Leere Disku
  • Eigentlich kann die Seite nicht mehr leer werden, denn du (ich setze dich jetzt mal mit deinem Bot gleich) schreibst ja gleich weiter unten einen neuen Abschnitt über 2013 nicht zugreifare Weblinks; deshalb bist du ja auf diese Seite gekommen.
  • Etwas anderes ist es, wenn nach Abschluss des Laufs von 2013 Seiten übrig bleiben, die eine Vorlageneninbindung mit 1=GiftBot aber ohne Lauf= tragen; die müssen von 2012 stammen, aber es wurden aktuell keine defekten Weblinks mehr gefunden.
  • Hier wäre ein Reinigungslauf sinnvoll; im Anschluss habe ich mal eine Bot-Prozedur aufgeschrieben. Aber das ist eine Frage, die sich erst in diversen Monaten stellt.
  • Was überhaupt mit dadurch völlig leeren Seiten geschehen soll, ist bis heute völlig ungeklärt (MB) .
  • Wenn der Bot sowas beim Nachputzen feststellt, würde es ausreichen, die Vorlage mit Parametern zu versorgen.
    Bot=GftBot|Lauf=2012-06|Leer=1
  • Mabschaaf ist jetzt Admin und könnte per Kat auf solche Seiten gelockt werden und tun, was immer er für richtig hält. Und die Vorlage kann über Leer=1 einen adäquaten Text zeigen. Wenn es nach mir ginge, kann der Schnee vom letzten Jahr komplett weggespült werden; aber es gab vereinzelte Hauptautoren, die meinten, sie bräuchten die verblichenen URL für die historische Dokumentation ihres Artikels.
Zu 2. Was wenn
  • Du brauchst mit Sicherheit nichts manuell abzuarbeiten. Was du und dein Bot für das Projekt tun, ist wertvoll genug.
  • Wenn die fraglichen Situationen über Vorlagenparameter und damit über präzise Wartungskat detektiert werden, kann alles von anderen Menschen oder unabhängigen Bots irgendwann viel später bereinigt werden, was nicht im selben Edit zu klären ist.
Zu 3. Warum nur? Warum??
  • Über das Datum des Botlaufs kann die optische Anzeige gesteuert werden:
    • Der aktuelle Lauf bekommt einen großen Kasten mit Bedienungsanleitung.
    • Alle früheren Einbindungen oder solche ohne Datum (vielleicht bereits archiviert) bekommen nur ein kleines Kästchen mit der Info: „Im Jahre .... war einmal; aber eigentlich ist das egal, weil die noch im Artikel vorhandenen putten URL sind woanders aufgelistet.“
  • Über die Unerreichbarkeit vor einem Jahr können die Fachredakteure bessere Entscheidungen treffen:
    • In den Webarchiven werden ehemalige URL oft erst nach einem halben oder anderthalb Jahren sichtbar gemacht, auch, um nicht in Konkurrenz mit dem aktuellen Angebot zu treten. Vorher lohnt es sich oft nicht zu suchen.
    • Wenn diese Domain schon seit einem Jahr tot ist, dann ist nicht nur für ein paar Monate der Server down oder die Stromrechnung nicht bezahlt, sondern die Domain kann man dann ganz vergessen und muss sich was neues suchen.
  • Welcher Bot?
    • Dies wurde bisher schon angegeben, und das war sinnvoll.
    • Nächstes Jahr sind vielleicht schon zwei aktiv, und dann können Eingeweihte nicht mehr aus dem Monat des Laufs auf den Bot zurückschließen.
    • In der generierten Bedienungsanleitung kann eine spezifische Kommunikationsseite des Bots für Rückfragen usw. genannt werden.
    • Wenn man weiß, dass es nur einen gibt, kann man das hardcoden, aber irgendwann werden unsere Kinder sich da durchfinden müssen und wollen in archivierten Seiten vielleicht etwas pro Bot filtern.
  • Die Signatur entspricht den Richtlinien für DS und den Sehgewohnheiten der Leser.
    • Sie kennzeichnet den Block mit Datum und Uhrzeit, von dem zwar die Eingeweihten wissen, dass er auf einen Schlag eingefügt wurde, und nur dieser, aber das ist nicht für alle Benutzer nachvollziehbar und zu trennen.
    • Interessant wäre auch eine 2014 denkbare Umstellung der talk pages auf Flow; aber das beträfe auch ganz viele andere Bapperl zu Übersetzungen, früheren Löschanträgen und was auch immer. Auch hier ist die Signatur erforderlich.
    • Es könnte sein, dass der Copperbot dir hinterherhounded und an jeden neuen Abschnitt ein unsigned hängt.
  • Nicht archivieren
    • Es gibt Seiten, die Abschnitte nach vier Wochen auch mit nur einem Beitrag archivieren. Ob das intelligent ist oder nicht, steht dahin; unsere Aufgabe ist es, auf der DS den Abschnitt sichtbar zu machen und dort zu halten.
Zu 4. Rückmeldung (wieder) erreichbarer URL
  • In der generierten Standardvorlage sollten die Benutzer außer dem kompletten Löschen von Einträgen nicht manipulieren; das ginge schief.
  • Eine gesonderte Untervorlage /erreichbar mit dem kopierten Parameter |17=http://Auferstehung.heaven/ könnte darunter eingefügt werden; dann wüsstest du unmittelbar Bescheid. Wer das mit dem Parameter nicht hinbekommt, fügt die Untervorlage parameterlos ein und schreibt die URL dann halt im Freitext drunter.
Zu 5. Bearbeitungen/Tag
  • Da bin ich persönlich überfragt; müsste man mit Mabschaaf und anderen ventilieren.
  • Ich würde maximal die Leistung von 2012 nehmen, eher weniger.
  • Wenn das 200.000 Seiten in acht Wochen waren, kämen 3.000 oder 4.000 pro Tag heraus.
  • Wenn man dieses Mal nicht alphabetisch nach Lemma, sondern scheinbar wahllos nach curid oder nach Quersumme der ersten URL (nicht nach Domain, sonst ist es wieder das gleiche Thema) durchläuft, dann bekommen nicht nur die Liste der Postautos im Kanton … alle gleichzeitig auf die Backe, oder die SMS Reisekaiser und HMS Coward werden geflutet.
  • Wenn gar fast jeder 5. Artikel die Seuche hätte und ein PowerUser beobachtet 2000 Artikel, dann schlagen 400 Einträge auf der Beo auf. Wenn die sich gleichmäßig auf acht Wochen verteilen, sind das sieben pro Tag; zumutbar. Wer 5000 Artikel beobachtet, muss sich sowieso an einen knackigen Tagesumsatz gewöhnt haben.
    • Wer in seinem Themenbereich lauter Seiten hat, die alle kaputte Weblinks haben, hätte da schon längst mal fixen können, wenn er meint, die alle kontrollieren zu müssen. Notfalls haben alle seine 2000 beobachteten Artikel die gleiche tote Domain; das ist nicht unser Problem. Wer nur thematisch beobachtet, aber sein Zeugs nicht pflegt, braucht sich nicht aufzuregen; da können wir nix zu.
  • Die Gesamtlaufzeit des Bots liegt bei dir.
    • Es geht sowieso nicht alles an einem Tag, und man kann sich immer auf Ressourcenbeschränkungen zurückziehen. Nach einem Vierteljahr sollte die sichtbare Disku-Phase durch sein.
Zu 6. Replica
  • Wozu genau brauchst du das?
  • Wichtig wäre auf β-dewiki die Erprobung der Disku-Phase, in der haufenweise Text-Edits passieren, die alle versemmelt werden könnten. Sie müssen unbedingt vorher erprobt werden.
  • Also mit drei exisitierenden und einer fehlenden DS und einem Dutzend Mickymaus-URL die Edits erproben.
  • Notfalls die Wikitext-Zeichenketten einer angenommenen DS vor und nach der Bot-Modifikation in einer Spielwiese darstellen; aber das ist natürlich nicht so schön wie ein Botlauf.
  • Obwohl Beta ja gerade zur Erprobung automatischer Prozeduren gedacht ist und irgendwann vorhanden sein sollte.
Zu 7. logfile
  • Es geht um die curid des Artikels, und die dürfte identisch sein mit pageid – die eindeutige Seitenkennzahl, die als curid= in der URL steht.
  • Der Wunsch geht dahin, beim Fixen einer URL in einem Artikel angezeigt zu bekommen, dass die gleiche URL noch in den folgenden Artikeln curid1,curid2 bis hin zu 17 weiteren vorkommt. Sonst schlägt man eine Woche später in curid1 auf und beginnt von vorne mit der Suche, und weiß nur noch dunkel, dass man das doch letzte Woche nach langem Googlen irgendwo gefunden hatte. Die Seitentitel der anderen Lemmata sind egal; es könnte auch was verschoben werden. Wenn das zwischendurch jemand anders geklärt hatte, hätte mein aktueller Artikel aber gleich mit gefixt werden sollen.
  • In dem freien Feld am Anfang vor der URL müsste etwas vermerkt werden wie: +curid=4711,32168
  • Es läuft darauf hinaus, dass das logfile besser nicht plain wäre, sondern eine SQL-Tabelle.
    • Die Statuscodes und URL lassen sich dann besser verwalten. Wenn eine Domain in einem Lauf 500er meldete, dann brauchen alle weiteren URL mit gleicher Domain in diesem Lauf schon nicht mehr abgefragt zu werden. Gibt es zu einer URL schon eine 404, braucht in diesem Lauf nicht mehr gefragt zu werden, sondern es wird nur die curid hinzugefügt.
    • Die gleiche URL könnte in Hunderten von Artikeln vorkommen. URL und curid stehen in many-to-many zueinander.
  • Was bringt der Statuscode?
    • Es würde dir helfen, bei 500er die Domain in diesem Lauf zu ignorieren.
    • Fachredakteure können entscheiden, wie sie mit der ganzen Domain zukünftig umgehen. Wenn sie 500 ist, kann man das ganze Thema wohl in den Ofen schreiben; erst recht, wenn die 2012 auch schon breit war. Eine 300er Nummer ist etwas für ein paar Experten; aber anhand von 300er Nummern kann man auf eine Restrukturierung der Domain schließen, und sie sollten explizit mit genauem Code benannt werden. Danach richtet sich das weitere Vorgehen. Die Details der 500er sind egal, da langt eine 5. Die 404 und alle 400er sind Normalfall und werden nicht besonders erwähnt.
    • Aus 500er und 2012 auch putt kann ich den Schluss ziehen, dass ich mir statt dieser Domain künftig etwas neues einfallen lassen muss; die kommt wohl nicht wieder. Aber wenn das ein Jahr her ist, könnten die alten Sachen im Archiv sichtbar gewoden sein.
8. webcitation.org
  • Das von mir vorgeschlagene Parameterformat ist offen; wenn du sachdienliche Infos hast, kannst du ein cit=987654 hineinschreiben. Es wird nach dem letzten Leerzeichen/Whitespace gesucht; alles links davon ist Bonus-Info, alles rechts die URL im Artikel.
9. Vorlagenauswertung
  • Eine Liste aller URL, die in der Toter-Link-Vorlage auftauchen, könnte ich dir zum Start der Aktion verfügbar machen; nebst Artikel.
  • Mindestens als statische plain text ließe sie sich auslesen.
  • Auf welche Weise gingen sie in deine Analyse ein? Schließt du sie damit gleichzeitig von der Auflistung als defekte URL auf der Disku aus?
  • Was sind Archiv-URL-Parameter, und wozu werden sie benötigt? Geht es um Vorlage:Internetquelle und cite web? Dann wie vor; lässt sich auch ohne Templatetiger ranschaffen; mit Zuordnung Artikel↔URL.
Ich habe mal eine geträumte Bot-Prozedur als separaten Abschnitt vermerkt.
Erstmal vielen Dank, dass du hier aufschlägst; viel frische Luft, viel Sonnenschein --PerfektesChaos 11:01, 13. Jul. 2013 (CEST)Beantworten
Auch von meiner Seite erst mal großen Dank an Giftpflanze, nicht nur (nochmal) für 2012 - auch bei allem Gegenwind -, sondern jetzt auch durch die implizit erklärte Bereitschaft, wieder dabei zu sein. Hier nur eine kurze Anmerkung zu mir: Ich werde meine Admin-Rechte nicht für Massen-Bearbeitungen (in welcher Form auch immer) einsetzen, soweit sie nicht durch ein MB (oder vergleichbar) gedeckt sind. Ich persönlich stimme PefektesChaos zu, dass leere Diskuseiten rot und nicht blau sein sollten, dieser Meinung sind auch viele andere Admins, die meine damaligen SLAs ausgeführt haben. Dennoch gibt es dazu auch andere Auffassungen, wie ihr wisst. Die Idee, Disku-Seiten mit nichts außer abgearbeiteten DWLs in einer speziellen Wartungskat zu erfassen, halte ich für außerordentlich gut (auch wenn ich mir gerade nicht vorstellen kann, wie das technisch funktioniert, aber dazu seid ihr die Experten).--Mabschaaf 12:24, 13. Jul. 2013 (CEST)Beantworten
  • Wenn es nach Abschluss des neuen Laufs auf einer Seite eine Vorlageneinbindung gibt, die nicht einen Parameter |Lauf= trägt, dann muss es sich um einen Artikel handeln, bei dem die URL nicht mehr defekt vorhanden sind. Entweder flutschen die URL 2013 wieder, oder die Textstellen wurden aus welchen Gründen auch immer aus dem Artikel entfernt. Jedenfalls ist 2013 der Bot nicht erneut vorbeigekommen.
  • Wenn Lua diese Situation erkennt, kann Lua den Quelltext der einbindenden Seite durchlesen und möglicherweise feststellen, dass dieser nur aus der Überschrift von 2012 bis zur Giftbot-Signatur von 2012 besteht, und dann eine besondere Wartungskat auslösen: „Lösch mich!“
VG --PerfektesChaos 23:47, 13. Jul. 2013 (CEST)Beantworten
Ja, ich brauche die Vorlagenauswertung, um bereits als tot markierte Links von der Auflistung auszuschließen. – Giftpflanze 02:03, 27. Okt. 2013 (CEST)aBeantworten
Das geht sauber und aktuell über das API. Man bracht einfach nur die linken 23 Zeichen des URLs wegschneiden, und man hat den toten Link im betroffen Artikel. Ich erstelle damit die Wartungslisten auf WP:WLWT. Aufpassen muss man nur, dass dieser [Wartungslink] annähernd aktuell bearbeitet ist, derzeit sind dort meist 1-2 Artikel pro Tag. Frohes Schaffen, Boshomi ☕⌨☺ –  02:30, 27. Okt. 2013 (CEST)Beantworten
Statt der API nehme ich dann halt lieber gleich die Datenbank :) Aber das funktioniert auch nur mit {{Toter Link}} oder? {{Internetquelle}} und Co. (ich habe inzwischen vergessen, welche ich da berücksichtigt hab, kann im Quelltext nur noch die Essenz nachlesen) sind da dann nicht berücksichtigt? – Giftpflanze 02:36, 27. Okt. 2013 (CEST)Beantworten
Ja. Das ist was Toter Link, Internetquelle und Cite web anbelangt vollständig. Dafür überlege ich mir aber eine "nodisplay" -Option in Toter Link einzubauen, mit der am URLs zwar markieren kann, aber an der Oberfläche nichts sichtbar wird. Diese Option wäre vor allem für die Verwendung als Untervorlage gedacht.
• Aufpassen musst du nur auf Fälle, wo Mediawiki die URLs gegenüber dem Wikitext manipuliert (siehe meine BD:Boshomi#Merkwürdige_Links). Eventuell ist das aber auch ein Bug, der sich schon auf der Seite von Mediawiki fixen lässt.
• Ich empfehle auch die neue Vorlage für die Markierung der URLs so zu Konstruieren. Ich bin gerade dabei auf Basis von Merlbot/InAction Themenbasierte Wartungslisten auf solchen Konstruktionen aufzusetzen. Ich überlege auch eine {{Toter Link/core}} die zumindest den unsichtbaren Wartungsteil (Wartungslinks, Kategorisierung,...) zentral übernehmen könnte. So eine Konstruktion hätte den Vorteil, dass man z.B. auf Basis einen Botparameters gleich angepasste Wartungslinks und Kats ausgäben könnte. Dank Benutzer:PerfektesChaos, der ein feines Lua-URL-Modul geschrieben hat, ist ja die Vorlage deutlich hamsterfreundlicher geworden.
 Frohes Schaffen, Boshomi ☕⌨☺ –  09:59, 27. Okt. 2013 (CET)Beantworten

Bot: Prozedur

Bearbeiten
  1. Alle externen Links aller Artikel durchgehen:
    • example ignorieren
    • Ggf. weitere in diesem Artikel als unerreichbar bekannte URL ignorieren
    • Statuscode ermitteln
    • Wenn nicht 200er, Statuscode und URL in logfile
      • Statt logfile möglicherweise eine kleine Datenbanktabelle; mit curid oder mehreren curid der Artikel; und mehr, siehe ein Abschnitt drüber.
      • Dann könnten wiederholte Abfragen derselben URL lokal abgegessen werden.
  2. Wenn alle Artikel-URL einmal abgefragt wurden, was eine oder zwei Wochen gedauert haben mag (mindestens wohl zwei Wochen nach erstem Durchgang):
    • Jede URL aus dem log abfragen.
    • Wenn jetzt 200er, dann URL aus dem log entfernen.
    • Sonst niedrigeren Statuscode registrieren.
  3. Dritter Durchgang wie vor, mindestens zwei Wochen nach dem Start des zweiten.
  4. Nach Ende: Community-Information veranlassen (Kurier usw.)
  5. Eine Woche später: Schreiblauf
    • In möglichst wahlloser Folge zu den curid (könnten zwischenzeitlich verschoben sein) die Disku angucken.
    • Gibt es einen vorangegangenen Lauf? Wenn ja:
      1. War eine in Rede stehende URL bereits 2012 unerreichbar?
        • Flag im logfile/DB.
      2. Den alten Abschnitt oder mindestens seine URL unwirksam machen.
        • Abschnitt schlicht löschen (Präferenz PerfektesChaos)
        • Abschnitt umformatieren:
          1. Einbindung ändern von
            |GiftBot}}
            auf
            |Bot=GiftBot|Lauf=2012-06}}
          2. In Liste der URL jede URL in nowiki einschließen.
          3. Bisherige Überschrift muss geändert werden durch Klammerzusatz (2012), weil Leser und defekterWeblinkBotVorlage auf die erste gefundene Überschrift springen.
    • Neuen Abschnitt anfügen gemäß umseitigem Muster.
  6. Statistische Nachbereitung
    • Das gesamte logfile hat bei mutmaßlich einer halben oder ganzen Million URL und deren durchschnittlicher Länge von 100 Zeichen über 50 MB. Das ist zum Download für Wartungspersonal unzumutbar.
    • Vielmehr sind Auswertungen auf dem Server als .txt bereitzustellen:
      1. Die 1000 häufigsten Domains, nebst besonderem Statuscode 300er/500er
      2. Die 1000 häufigsten oder alle Domains mit 500er Statuscode
      3. Auf Anfrage URL-Listen zu bestimmten Domains, auch mit curid (das kann aber auch Lua leisten als URL-Wartungskat auf Anfrage)

--PerfektesChaos 11:13, 13. Jul. 2013 (CEST)Beantworten

Zu 5.2.: Lässt sich feststellen, ob der Abschnitt zwischenzeitlich bearbeitet wurde? Wenn nein, kann er natürlich komplett gelöscht/ersetzt werden, kein Problem. Die Schwierigkeiten fangen an, wenn er irgendwie modifiziert wurde. Das können jegliche Art von Kommentaren von Benutzern sein; Anschlussdiskussionen, welcher Ersatzlink der beste wäre etc. etc. Ich persönlich habe beispielsweise defekte Weblinks, die in der Sektion "Weblinks" im Artikel standen, dort entfernt, aber auf der Disku nur mit nowiki entschärft, damit evtl. weitere Bearbeiter noch die Möglichkeit haben, Ersatzlinks zu finden (Beispiel).
Ich gehe mit Sicherheit davon aus, dass jede Art händische Bearbeitung, die von einem Bot gelöscht wird, ein Aufschrei der Entrüstung nach sich zieht. Hier muss also eine andere Lösung her.--Mabschaaf 12:42, 13. Jul. 2013 (CEST)Beantworten
  • Wenn ich „löschen“ schrieb, so meinte ich alte Abschnitte, die ausschließlich die Bot-Einbindung enthalten.
  • Ich habe einige Hundert gesehen, aber da war keiner dabei, wo jemand angefangen hätte, mit dem Bot zu diskutieren. Es mag aber sein, dass jemand nach dem Bot irgendwelche Vermerke angefügt hätte.
  • Der Regelfall ist daran zu erkennen, dass die Bot-Signatur die einzige Signatur im Abschnitt ist, und auch dessen letzte Zeile.
  • Wo das ausnahmsweise mal nicht der Fall wäre, kann der Bot die Vorlageneinbindung um einen Parameter |manuell=1 ergänzen und menschliches Wartungspersonal herbeirufen.
  • Statt Löschung wäre die manuelle Klärung dann angesagt; auch dann die URL und die Überschrift zu deaktivieren.
  • Nicht erkennbar ist eine manuelle Veränderung dahingehend, dass 2012 sieben URL aufgeführt waren, davon aber nach und nach vier abgearbeitet und aus der Liste herausgelöscht wurden, und davon heute noch drei übrig sind. Das geschieht normalerweise ohne Signaturen anzubringen und Romane zu schreiben, und eine Löschung hat keine Schöpfungshöhe – dann ist diese Bearbeitung auch Geschichte. Irgendwann muss mal was unbürokratisch erledigt werden; für die Historiker gibt es die Versionsgeschichte.
LG --PerfektesChaos 23:47, 13. Jul. 2013 (CEST)Beantworten

Gleiche URL in mehreren Artikeln

Bearbeiten

Wenn festgestellt wird, dass die gleiche URL in mehreren Artikeln (=curid/pageid) vorkommt, soll im Feld vor der URL eine Komma-getrennte Liste der curid/pageid dieser anderen Artikel erscheinen. Diese können dann mit dem Ergebnis der Recherche gleich mitrepariert werden.

Linkservice:

--PerfektesChaos 20:39, 15. Aug. 2013 (CEST)Beantworten

Zwischenschritt: Power-Fixing

Bearbeiten

Etwas, was bisher noch nicht diskutiert wurde: Schon bevor die Meldungen über defekte Links auf die Artikeldiskus verteilt werden, sollte die Möglichkeit geschaffen werden, Massenreparaturen durchzuführen.

Die Regularien sehen ja vor, dass jeder Weblink mindestens dreimal im Abstand von zwei Wochen auf Verfügbarkeit geprüft werden muss, bevor er als defekt gilt. Es muss also zwischenzeitlich eine Liste/Datei mit allen Defekt-Kandidaten existieren - letztlich die Arbeitsgrundlage für den Bot, der dann die Meldungen verteilt. mM wäre es höchst sinnvoll, zunächst mal genau diese Liste auf Häufungen zu untersuchen und diese in vernünftiger Form auf speziellen Wartungsseiten aufbereitet zur Verfügung zu stellen. Spontan fallen mir ein:

  • Listen aller toten Links, die in Artikeln einer bestimmten Kategorie stehen (= Arbeitsliste für Redaktionen, Portale und Benutzer mit Einzelinteressen) - sollten zumindest auf Anfrage einfach und schnell erzeugt werden können (evtl. dafür eine opt-in-Liste?)
  • Domains, auf die eine Anzahl > x tote Links gehen (findet tote "Datenbanken")
  • Dokumente/full-url-Webseiten, deren Verlinkungsanzahl > y beträgt (hohe Wichtigkeit für WP, weil häufig verlinkt)
  • ...(?)

Damit wären Arbeitsgrundlagen für Power-Fixer geschaffen, ohne dass auch nur ein Edit auf Artikeldiskus stattfindet. Natürlich wäre dann noch eine Zeitspanne zu definieren, nach der ein Bot losgelassen wird, um ganz klassisch die Meldungen zu verteilen und damit Gelegenheits-Fixer alle Benutzer zu erreichen.--Mabschaaf 23:11, 31. Okt. 2013 (CET)Beantworten

Sorry, aber ich halte rein gar nichts von dieser Idee.
  • Ziel der Idee ist offenbar, Einträge auf Artikeldiskus zu vermeiden.
  • Das wird kaum in nennenswertem Umfang passieren.
  • Wenn ein Artikel eine URL einer mutmaßlichen Häufung enthält, würde ein Eintrag auf einer Artikeldisku nur dann vermieden werden, falls es in diesem Artikel keine andere putte URL gäbe.
  • Ob eine Häufung vorliegt, kann auch zunächst dadurch so erscheinen, weil irgendwo ein Server down ist. Die erneute Abfragen im Abstand einiger Wochen sollen ja gerade die Situation vermeiden, dass wegen einer vorübergehenden Unpässlichkeit großes Tamtam gemacht wird.
  • Wer in seiner Fachthematik zu Hause ist, der kennt umstellungsbedürftige Domains auch ohne Bot.
    • billboard.com wird eine solche Häufung produzieren. Die Deeplink-Struktur wurde schon vor Jahren umgestellt, und jeder Chart-Eintrag muss für jeden einzelnen Songtitel, Band, Interpreten neu herausgesucht werden. Das zieht sich über Jahre.
    • daserste.de mdr.de ndr.de tagesschau.de usw. usw. sind auch eine solche Häufung, die kannst du heute schon abarbeiten.
  • Dein gewünschtes Power-Fixing ist nur in Trivialfällen innerhalb weniger Wochen per Bot-Lauf aussichtsreich:
    index.example.org/query.php?item=47110815
    query.example.com/index.php?page=47110815
    • Solche einfachen Fälle sind längst bekannt, und wo es so einfach ginge, werden Bot-Läufe zum Power-Fixing auch schon immer von den Fachleuten veranlasst. Oder es liegt in einer DB-Vorlage und die Vorlage wird mit einem Edit angepasst.
    • Wo es nicht so einfach geht, kennt man die Domains schon längst und beißt sich bereits seit Monaten anhand der Weblinksuche durch, und muss jede URL einzeln neu bestimmen. Nix mit Power-Fixing. Oder es gibt gar nicht so viele beschäftigungslose Portal-Mitarbeiter, denen du diese Themen überhelfen willst, und die nur darauf warten, jetzt unter Zeitdruck etliche Seiten korrigieren zu müssen.
  • Die Aktion sollte jedenfalls nicht in ihrem Ablauf verzögert werden, bis nach Monaten die Power-Fixer gemeldet haben, dass sie jetzt 250 Links gefixt haben.
  • Aus Boshomis toten Links und seiner DB mit 9000 Einträgen kannst du gern solche Häufungen entnehmen, und sofort loslegen.
  • Die Datenbank von Gifti hat nach meiner Kalkulation sicher 50 MB an Rohdaten.
    • Du kannst also nicht mal eben eine Tabelle in deinem Browser darstellen.
    • Es ist keinerlei Abfrage-Schnittstelle vorhanden oder geplant, um die von dir gewünschten Listen herauszuziehen und die Angaben zu den entsprechenden Seiten individuell und nach persönlicher Interessenlage zu gewinnen. die Software dazu müsste erst geschrieben werden.
    • Gifti hat genug zu programmieren und zu testen. Das sollte nicht noch verkompliziert werden durch eine ziemlich aufwändige Aktion, die nach wenigen Wochen Schnee von gestern ist.
  • Selbst wenn es so kommt, wie du dir das vorstellst, spart das am Ende 50 veränderte Artikeldisku ein; von 200.000 – so what?
  • Richtig ist, dass dieses Mal zum Abschluss der Aktion einige Statistiken bereitstehen sollten:
    • Wie viele Seiten und URL wurden insgesamt für reparaturwürdig befunden?
    • Welches sind die 1000 häufigsten Domains, und wie viele Seiten/URL sind davon jeweils betroffen?
Die letzte Entscheidung zu deinem Vorschlag steht Gifti zu.
VG --PerfektesChaos 11:15, 3. Nov. 2013 (CET)Beantworten
Inzwischen sind schon über 11500 URLs in meiner Datenbank erfasst. Ich bin inzwischen auch in der Lage, bereits gefixte URL mit einer API-Suche auf noch ungefixte Seiten zu verlinken, sodass ich aus den Ergebnissen gefixter Links lernen kann. Da ich alle entfernten Toter Link-Vorlagen als gefixt erkenne, wird diese Datenbank immer nützlicher je mehr Seiten dort eingetragen werden. Probleme habe ich derzeit noch mit dem Erkennen von verschobenen und gelöschten Seiten weshalb ich diese Ergebnisse derzeit noch nicht in der Vorlage {{WLWcheckurl}} ausgebe. („Diese URL ist bereits auf Seite A gefixt und ist noch ungefixt auf den Seite B,C,D“) Das kommt vermutlich in den nächsten 14 Tagen. Testweise habe ich damit z.B. die Domain expressindia gefixt. Lernen aus gefixten Links beschleunigt die Arbeit schon beträchtlich. Gröbere Probleme macht mir derzeit noch das Ausgeben von themenbezogen Wartungslisten. Die Kats und Portale habe ich eingelesen, diese aber sinnvoll zu verknüpfen erweist sich im Detail als schwierig.  Frohes Schaffen, Boshomi ☕⌨☺ –  14:03, 3. Nov. 2013 (CET)Beantworten
Sorry, aber ich kann Dir hier in praktisch keinem Punkt zustimmen. Schauen wir einfach zurück (und die Situation wird beim nächsten Botlauf kaum anders sein, denn geschätzt zwei Jahre nach dem ersten Lauf werden wieder viele Seiten down gegangen sein):
Gifti fing an, die Diskus vollzuschreiben, auf Nachfragen von vielen Seiten wurde dann die Komplettliste veröffentlicht (lag mal unter http://toolserver.org/~giftbot/links - ist inzwischen aber weg), dann haben sich ein paar Leute dran gemacht, diese Liste auszuwerten, wodurch u.a. Benutzer:BeriBot/TopToteLinks entstand. Auf WP:B/A gab es zu dieser Zeit haufenweise Anfragen, bestimmte Links automatisch zu fixen (siehe dazu Wikipedia:Bots/Anfragen/Archiv/2012-2).
Du sagst, die entsprechenden Fachleute wüssten das sowieso - offenbar nicht, die Probleme wurden ja auch damals durch Giftis Edits erst erkannt und dann Lösungen gesucht! Warum sollte es jetzt anders sein?
Es gab ja auch Datenbanklinks, die down waren, aber von Vorlagen erzeugt wurden - hatte im Zweifel Hunderte von Diskueinträgen zur Folge (die alle wieder abgeräumt werden mussten) obwohl für das Fixen nur ein Edit in der Vorlage nötig war.
mM ist es ein erheblicher Mehraufwand, zusätzlich zum Linkfixen auch noch die Disku-Einträge zu aktualisieren (also Zeilen oder den kompletten Abschnitt löschen, evtl. SLA zu stellen). Da wäre es doch sehr viel angenehmer, solche gehäuft auftretenden Fälle abarbeiten zu können, ohne dass sie auf Diskus gespammt (und in diesem Falle ist das Wort leider richtig) wurden.
  • An dieser Stelle wäre übrigens zu überlegen, ob man nicht einen permanent laufenden Bot schreiben könnte, der sich um das Abräumen der Diskus kümmert: Genauso wie MorbZBot die PDF-Größe in Artikeln einfügt, könnte ein LinkFixedBot die entsprechende Zeile auf der Disku löschen (oder was immer: Links entschärfen, Abschnitt löschen, SLA stellen). Das wäre super komfortabel und würde die Diskus immer aktuell halten, selbst wenn gar kein Linkfixing geplant war, sondern ein Benutzer ganz zufällig einen Link entfernt hat.
Zurück zum Power-Fixing: Die 50 MB-Liste muss ja gar nicht komplett auf einer WP-Seite bereitgestellt werden. Daher in meinem Posting oben die Variablen "x" und "y" - es geht wirklich nur um Häufungen: Wenn ein einziges PDF 50x verlinkt ist, ist es wert, besondere Beachtung zu finden. Sind bei einer Domain >70% der Links down und ist sie insgesamt >100x verlinkt: Es lohnt sich, hinzuschauen! Und wenn man nur diese beiden Kriterien nimmt, bleiben von den 50 MB doch nicht so viel übrig. Das sollte sich problemlos in zwei Listen zusammenstellen lassen. Die Parameter ließen sich ja sogar soweit anpassen, dass Listen entstehen, die händelbar bleiben.
Aber ich würde gerne auch lesen, wie andere hierüber denken.--Mabschaaf 13:46, 3. Nov. 2013 (CET)Beantworten
Wichtig für den nächsten Lauf wird sein, dass die als unerreichbar markierten Links möglichst schnell in einer Datenbank erfasst werden. Danach kann man nach Häufigkeiten auswerten, und erkennen, wo die selben Links an anderer Stelle schon gefixt wurden. Das ermöglicht ein zügiges Erkennen von möglichen Botaufträgen oder effizient per Hand fixbarer Wartungslisten. Problematisch bleiben dann Links wie die Denkmalliste aus Sachsen, die über 100fach verlinkt, bisher ohne Lösung blieb. Wenn aber jemand eine Literaturstelle findet, in der diese Liste erfasst ist, dann sind auch diese 100+ Links in einem Schritt gefixt. Frohes Schaffen, Boshomi ☕⌨☺ –  14:20, 3. Nov. 2013 (CET)Beantworten
Einen Zwischenschritt zu Massenreparaturen dieser Fälle a) "Eine Webseite ist zahlreich verlinkt" oder b) "Eine Webseite wurde umstrukturiert und die Links lassen sich nach einem gewissen Schema nun umbiegen" finde ich sinnvoll. Kein Einstein (Diskussion) 16:39, 3. Nov. 2013 (CET)Beantworten

Ich wurde von Mabschaaf gebeten, hier meinen Senf abzugeben: Es ist kein Problem für mich, die Liste vorher rauszurücken. Ich kann auch nach Domain/URL und Häufigkeit sortierte Listen machen. Oder Listen für bestimmte Kategorien(bäume), muss nur programmiert werden. Ich finde es überhaupt auch sinnvoll, vor einem Lauf andere Leute mal über die Liste drüberschauen zu lassen, ob denn das Programm, das die Prüfung macht, seinen Job auch ordentlich erledigt (falsch-positive, falsch-negative, werden die Myriaden an Status-Codes richtig interpretiert, ich habe das ja bislang alleine gemacht). – Giftpflanze 17:55, 19. Dez. 2013 (CET)Beantworten

Spamblacklist-Flag sbl

Bearbeiten

Ich denke, wir benötigen noch ein Flag zur Entschärfung von Links, die auf der Spamblacklist stehen, da sie sonst nicht eingetragen werden können. – Giftpflanze 01:02, 3. Nov. 2013 (CET)Beantworten

Ich würde einen komplett anderen Weg vorschlagen:
  • Abfrage, ob eine URL geblacklisted ist, bevor überhaupt Kontakt mit dem Internet aufgenommen wurde.
    • meta:Spam blacklist
    • In der jeweils aktuellsten Version, oder aber zu Beginn der Aktion mit dewiki gemerged eine statische Hilfstabelle generieren, und auf der basierend eine Funktion isSBL(url) bauen.
    • Beim Treffer wird überhaupt kein http-Kontakt mehr aufgebaut, sondern das Ding bekommt gleich den Statuscode -1 oder 1001.
  • In den Output der Disku-Seite ein Flag SBL einbringen, und keine klickbare URL mit Protokoll reinschreiben, etwa wie folgt:
    12=http://billboard.com/charts?query.php=Gifti_ist_die_Beste
    13=SBL geschaeftemacher.com/UeberOhrHau.php?raff=nepp
    14=http://ndr.de/Sendungsarchiv?Datum=............
Das Flag SBL wird bei Darstellung der Vorlage erkannt und kein klickbares Link generiert, sondern ein Link auf WP:SBL und dahinter der sonstige Code der URL angegeben.
Wenn ich das richtig deute, könnte jemand eine Spam-URL in den Quelltext geschrieben haben, und erst später kam die Domain auf die blacklist. Der nächste, der dann da editiert (oder speziell diese Zeile ändert?) bekommt das Ding dann um die Ohren gehauen.
  • Es wäre nach dem vorstehenden Vorschlag auch mögich, später eine Wartungskat mit allen Artikeln zu erstellen, die noch eine als SBL geflaggte URL enthalten.
Ohne dir ins Handwerk pfuschen zu wollen, würde ich eine vorgeschaltete Prozedur empfehlen, bevor HTTP auch nur angefasst wird. Das wäre etwa wie folgt (Reihenfolge variierbar):
  • Ist die URL syntaktisch gültig?
    • Also nicht:
      http://x
    • Kriterium: Ein Punkt vor dem ersten Schrägstrich nach Protokoll, oder Ende der URL; links und rechts davon wenigstens ein Buchstabe (oder Ziffer davor).
    • Wenn nicht, könnte es ein Beispielcode für eine Syntax sein – dann sollen die Leute das gefälligst richtig escapen.
    • Vielleicht ist aber nur aus Versehen ein Zeilenumbruch oder ein Leerzeichen in den Quelltext geraten.
    • Maßnahme: In die Disku-Seite aufnehmen, aber in <nowiki> einschließen.
    • Vor die URL ein Flag setzen, etwa
      9=nowiki <nowiki>http://x</nowiki>
    • Der Datenbank-Eintrag bekommt den Statuscode -2 oder 1002 und die URL wird nicht über HTTP angefasst.
  • Ist die Domain ein Beispiel nach RFC 2606 wie: example.com example.net example.org example.edu
    • Maßnahme: Eintrag sofort aus der Datenbank löschen, völlig ignorieren.
  • Gehört die Domain zu Familie? wikipedia.org wikimedia.org etc.?
    • Könntest du völlig ignorieren und sofort aus der Datenbank löschen.
    • Du könntest aber auf den Path schauen:
      • Wenn mit /wiki/ und kein ? von ?uselang=de darin vorkommt, ist es wohl fast immer im Wikilink-Format darstellbar. Wann nicht?
        • Ist zwar nicht wirklich „defekt“, aber auch nicht so richtig gutes Weblink.
        • Wikilink-Format wäre eine schlaue Umwandlung.
        • URL sind immer blau.
        • Wikilinks im eigenen Projekt sind rot, wenn sie nicht existieren, und blau, wenn okay.
        • Wikilinks in fremde Projekte tauchen unter den GlobalUsage auf.
        • Maßnahme: Statuscode -3 oder 1003 setzen; auf der Disku-Seite mit einem Flag wiki verbuchen:
          3=wiki //de.wikipedia.org/wiki/WP:Lua
      • Wenn mit /w/index.php? (also schon ein Fragezeichen reicht zur Erkennung, wie zuvor) dann fast immer kein Wikilink-Format möglich, etwa eine history bei einer Übersetzung.
        • Spätestens jetzt aus der Datenbank löschen; es wird ja wohl immer jemand zu Hause sein, und antwortet nur sehr selten mit 404.
  • Erfüllt die URL die Bedingung der SBL?
    • Maßnahme: Statuscode -4 oder 1004 setzen; auf der Disku-Seite mit einem Flag SBL verbuchen:
      13=SBL geschaeftemacher.com/UeberOhrHau.php?raff=nepp
  • Gab es für diese Domain (und Port) bei diesem Lauf schon mal einen 500er Statuscode?
    • Das heißt, die Domain ist nicht mehr registriert oder der Server ist diese Woche down.
    • Nächsten Monat könnte ein verschnupfter Server sich aber wieder erholt haben.
    • Oder umgekehrt gesagt: Sobald beim Lauf ein 500er Status festgestellt wird, bekommen alle Datensätze mit gleichem domain:port ebenfalls den gleichen Statuscode und werden diese Woche nicht mehr per HTTP angefasst.
Ziel: Die ersten Maßnahmen können einmalig nach dem Zusammentragen aller URL vorab erfolgen, ohne das HTTP anzufassen (bis auf die 500er).
  • Danach wird der Eintrag bereits aus der Datenbank gelöscht oder erhält ein spezielles, dauerhaftes Flag, das vor einem HTTP-Kontakt beguckt wird.
  • Auf der Disku-Seite werden spezifische Hinweise zum Weblink eingetragen, wenn der Artikel verbessert werden kann.
Schönen Sonntag --PerfektesChaos 10:36, 3. Nov. 2013 (CET)Beantworten


•Für private http Statuscodes (blacklist) würde ich Werte aus der Serie 900-998 bevorzugen. Dort wo einige wenige Server solche Werte verwenden (z.B. yahoo) würde ich deren private codes gemeinsam auf 999 umleiten. Der Datentyp sollte integer 100..999 bzw char(3) bleiben.
• Für die Ausgabe von SBL auf Diskussionsseiten würde ich diese Form bevorzugen:Spamm-Blacklist: https://de.wikipedia.org/wiki/WP:SBL?SBL=geschaeftemacher.com/UeberOhrHau.php?raff=nepp Der Grund ist, dass viele Browser für Texte die sie als URL erkennen, automatisch im Kontextmenü eine Verlinkung anbieten. Auf diese Weise wäre auch sichergestellt, dass derartige URL nirgends im Suchindex nach oben gereiht würden. Für die Ausgabe der Vorlage bei direkter Markierung im Artikel würde ich ein alternatives Prafix vorschlagen: z.b. http://sbl.invalid/http://geschaeftemacher.com/UeberOhrHau.php?raff=nepp um diese Links effizient mit der Weblinksuche bzw. API auffinden zu können.
• temporäre 500er Statuscodes kommen je nach Domain recht häufig vor. In diesen Fällen ist ein häufigeres Prüfen über längere Zeiträume hinweg notwendig. Insbesondere afrikanische Domains sind oft nur schwer erreichbar. Erst wenn danach immer noch nichts erreichbar ist, kann man die gesamte Domain markieren.  Frohes Schaffen, Boshomi ☕⌨☺ –  14:03, 3. Nov. 2013 (CET)Beantworten
Bitte bring es nicht noch durcheinander, und mach es nicht noch komplizierter. Du hast die Tricks überhaupt nicht verstanden.
  1. Ob Gifti in ihre Datenbank -1, 1001 oder die Zeichenkette „nowiki“ in eine gesonderte Spalte hineinschreibt, ist ihre Privatangelegenheit. Niemand außer dem Giftbot bekommt diese Spalte jemals zu sehen, und es geht lediglich darum, diesen Wert unabhängig von den echten Statuscodes sicher unterscheidbar zu halten und das HTTP nie anzufassen. Deshalb brauchst du auch keine Vorgaben hinsichtlich des „Datentyp integer 100..999“ zu machen.
  2. Die Ausgabe durch den Bot auf die Diskussionsseite soll kurz und knackig geschehen und soll anschließend effizient durch Lua auwertbar sein. Deshalb soll die Ausgabe dort wie oben genannt lauten:
    13=SBL geschaeftemacher.com/UeberOhrHau.php?raff=nepp
    • Die Auffindung aller möglicherweise noch in Artikeln stehender SBL-Verlinkungen kann dann schnell und effizient später per Wartungskategorie anhand des Flags erfolgen. Sie sind ohnehin komplett abzuräumen.
    • Solche Tricksereien mit irgendwelchen Pseudo-Verlinkungen wie von dir beschrieben sind völlig überflüssig, verwirrend und übermäßig kompliziert.
  3. Ein 500er-Statuscode bedeutet, dass eine gesamte Domain dieser Tage nicht erreichbar ist. Also können sämtliche URL in der Datenbank mit dieser domain:port für diese Woche und diesen Lauf als unerreichbar markiert werden, also den gleichen Statuscode erhalten. Es ist allen Beteiligten völlig klar, dass dieser Lauf dreimal wiederholt wird und die Domain erst dann endgültig als unerreichbar markiert wird, wenn das auch beim vierten Lauf fehlschlug.
VG --PerfektesChaos 14:43, 3. Nov. 2013 (CET)Beantworten
 
Browserverlinkung
1. Ich dachte, dass diese Codes an irgend einer Stelle auslesbar, und auswertbar wären. (Worin ich durchaus auch einige Vorteile sehe)
2. Sobald da ein "/" drinnen steht, könnte das von den Browsern schon wieder falsch interpretiert werden, und dies als Link im Kontextmenü ausgegeben werden. siehe Screenshot. Frohes Schaffen, Boshomi ☕⌨☺ –  15:15, 3. Nov. 2013 (CET)Beantworten

Gemeinsame Antwort: Die SBL verhindert, dass Links von ihr auf Seiten hinzugefügt werden können. Bestehende Links verursachen kein Problem. Manchmal macht man sogar Ausnahmen von der SBL und entfernt einen Eintrag temporär, damit bestimmte Links, die doch in Ordnung sind, eingefügt werden können. Nicht alle Links, die schon bestehen, sind unerwünscht, deshalb afais auch nicht pauschal als defekt/fehlerhaft anzusehen. Das bedeutet aber auch, dass das von Boshomi vorgeschlagene Format nicht ohne Klimmzüge funktioniert, da sich ein SBL-Eintrag auf sämtliche Teile einer URL beziehen kann (auch wenn auf meta:Spam blacklist was anderes steht). – Giftpflanze 15:27, 3. Nov. 2013 (CET)Beantworten

Genau; und deshalb habe ich oben das Protokoll weggelassen – ohne das http:// am Anfang springt die SBL nun wirklich nicht an.
  • Restbestände an SBL: Naja, ist aber ein sehr seltener Fall, dass eine URL unter SBL fällt und trotzdem erwünscht ist.
  • Dafür ist es mir schon mehrfach passiert, dass beim Editieren in einem Abschnitt, in dem eine später gebläcklistete URL stand, mir dann die ganze Seite um die Ohren flog. In der Regel sollten also solche Restbestände getilgt werden. man kann ja daraus eine wartungskategorie bilden und sie gezielt vom lustigen seth absuchen lassen; mehr als eine handvoll wird das ja wohl nicht sein und der lustige seth kennt dann auch die sonderfälle und kann notfalls auch die whitelist manipulieren.
@ Boshomi:
  1. Eine Live-Auswertung des Bot-Laufs war bisher noch nie eingefordert worden, und es ist noch keine Schnittstelle oder deren Programmierung vorgesehen.
    • In erster Linie teilt sich der Bot nach dem Abschluss aller Suchläufe durch Abschnitte auf den Diskuseiten mit; Format derzeit wie umseitig.
    • Ein Abschnitt vorher war angeregt worden, nach Abschluss des ersten Durchgangs eine Liste der häufigsten Domains und Einzel-URLs vorab zu veröffentlichen. Das mag ja gern geschehen, ist aber für die gute Million URL in über 200.000 Artikeln nicht geplant.
  2. Das ist eine ganz normale Zeichenkette ohne irgendwelche Wikisyntax und ein URL-Protokoll, und ich würde sie sicherheitshalber sowieso HTML-escapen und/oder in nowiki setzen. Und es ist innerer Quellcode im 13. Parameter einer Vorlage, und wird ohne besondere Maßnahmen ohnehin nie in der generierten HTML-Seite sichtbar werden.
VG --PerfektesChaos 15:46, 3. Nov. 2013 (CET)Beantworten
• Sollange die SBLs für unbedarfte Zufallsdraufklicker unsichtbar bleibt, ist das schon in Ordnung.
• Eine der Lehren aus dem letzten Botlauf war für mich, dass wir sehr intensiv über die Lernfähigkeit des Systems nachdenken sollten. Die personellen Ressourcen die hinter dem Bot hinterher arbeiten sind sehr knapp, und benötigen folglich sehr effiziente Werkzeuge. Das ist auf technischer Seite in der Regel mit Datenhaltung und -verwaltung verbunden, wobei eine externe Datenhaltung, wie ich sie derzeit betreibe, als Notlösung angesehen werden muss.
• Derzeit habe wir einen Benutzer der mit konstant über 400 Edits pro Tag defekte Weblinks ausschließlich mit Archivlinks ersetzt. Diese Aktion ist bisher kaum auf Widerstand gestoßen, und ist, so wie das gemacht wird, wenigstens halbautomatisierbar (bzw. wird auch so durchgeführt).  Frohes Schaffen, Boshomi ☕⌨☺ –  19:47, 3. Nov. 2013 (CET)Beantworten
Ich habe gerade auf enwiki nachgesehen und die Vermutung, dass es sich bei BD:Rotlink um einen Bot handelt hat sich bestätigt.  Frohes Schaffen, Boshomi ☕⌨☺ –  00:52, 4. Nov. 2013 (CET)Beantworten

Spezialanker

Bearbeiten

Wozu wird der Anker deadurl.2013 benötigt? Für irgendwelche Tools? Kann man den nicht immer „Defekte Weblinks“ nennen (bei gleichzeitiger Beseitigung eventueller früherer so benannter Abschnitte) und gut is? – Giftpflanze 00:49, 9. Dez. 2013 (CET)Beantworten

  • Benennung des Abschnitts und Anker
    • Für irgendwelche Tools? Ja, das hier beispielsweise soll nur tätig werden, wenn es einen Abschnitt zum aktuellen Lauf gibt und nur dann einen Hinweis in den Artikel einfügen. Bei veralteten Abschnitten soll nichts geschehen.
    • Alle Abschnitte, früher und in Zukunft, tragen die sichtbare Überschrift „Defekte Weblinks“ und auch nach dieser kann von Tools gesucht werden.
    • Es sind aber auch in der HTML-Seite auf Anhieb die Anker sichtbar. Mit dem JavaScript-Konstrukt $("#deadurl.2014") lässt sich sofort zweifelsfrei herausfinden, dass man einen aktuellen oder 2015 veralteten Abschnitt vor sich hat.
    • Wenn 2015 der Lauf nach dem Lauf erfolgt, muss im Quelltext der veraltete Abschnitt von 2014 gesucht und entfernt werden. Damit kann man vermeiden, dass es irgendwo zu Konfusion kommt.
    • Wenn immer alles so laufen würde wie geplant, käme es nie zu Chaos. Es kann sich aber mal verworren entwickeln: Nachdem alte Abschnitte bereits gelöscht waren, werden frühere Versionen wiederhergestellt; der Bot kommt irrtümlich zweimal auf denselben Artikel und frisst sich selbst auf, usw.
LG --PerfektesChaos 10:49, 9. Dez. 2013 (CET)Beantworten
Update: Format wurde geändert in deadurl_2013-12 mit der Nebenbedingung, dass 2013-12 genau die Kennung des Lauf-Parameters sein muss. --PerfektesChaos 22:47, 11. Feb. 2014 (CET)Beantworten

Vorschlag umseitig

Bearbeiten

Ich habe auf der Vorderseite mal ein paar Änderungen vorgenommen, wie ich das so handhaben würde:

  • statt wba oder wba=xxxxxxxxxxxxxx nur den Zeitstempel xxxxxxxxxxxxxx
  • betrifft die URL mehrere Seiten: +1,2,3,…
  • HTTP-Code immer ausgeschrieben angeben: 404, 500, 300, …; dazu auch curl-Codes (z. B. 006 DNS-Fehler, 007 Server nicht erreichbar, 035 SSL-Fehler, etc.)

Giftpflanze 00:59, 9. Dez. 2013 (CET)Beantworten

  • Kennung wba weglassen
    • Nein, die wird benötigt.
    • Statt wba kann es auch mal ein Archiv xyz geben; oder es kommt ein Alternativformat wba2 des gleichen Systems in Mode.
    • Die armen Menschlein müssen ja auch noch verstehen können, was der ganze Datensalat soll.
    • Ich (bzw Lua) hätte ja kein Problem damit, aus einer 14-stelligen Zahl den Schluss zu ziehen, dass das für immer und ewig „wba“ bedeuten soll. Normale Menschen aber schon, und die Bedeutung könnte sich einmal ändern.
  • URL mehrere Seiten
    • +1,2,3,…
    • Ja, sehr gern; das sind die pageid=curid der anderen außer dem momentanen Artikel.
    • Daraus kann ich mit Leichtigkeit eine Liste von Links bauen [1], [2] mit [/w/index.php?curid=1234 1]
    • Pluszeichen ist dann die eindeutige Kennung dafür; bis zum nächsten Leerzeichen folgt Komma-separierte Liste.
  • Statuscode immer ausgeschrieben
    • Ja, okay.
    • curl kannte ich noch nicht.
    • Die 500er werde ich zumindest in der Darstellung der Meldung dann nicht gesondert erklären, aber die Nummer dahinterschreiben.
    • Die 404 brauchst du aber nicht; das bläht nur auf und ist der wohl deutlich überwiegende Standardfall. Wird auch (anders als 500er) in der Darstellung nicht besonders erläutert.
    • Dreistellige Zahl allein ist dann immer Statuscode ungleich 404.
  • Name der Vorlage
    • Die neue Vorlage bekommt bewusst einen abweichenden Namen.
    • Die Programmierung der alten und der neuen Vorlage hat nichts mehr miteinander zu tun. Die neue Programmierung hat nur noch die eine Zeile:
      {{#invoke:Vorlage:DefekterWeblink|f}}<noinclude>{{Dokumentation}}</noinclude>
    • Die alte Methodik (ohne URL-Parameter und Jahreszahl, miit traditioneller Programmierung) wird irgendwann einmal obsolet sein.
    • Nach dem Lauf 2014 wird es mehrere Tausend Disku-Seiten geben, die die alte Vorlage enthalten. Das sind Artikel, in denen jetzt alle URL okay sind, sie vielleicht gefixt wurden, oder auch aus anderen Gründen aus dem Artikel getilgt, und wo noch die alte Einbindung steht. Dort muss nachbereitet werden, sprich aufgeräumt und gelöscht. Bei den Artikeln, wo 2014 defekte Weblinks geortet wurden, wird die alte Einbindung ja entfernt.
    • In den Folgejahren wird die neue Programmierung anhand der Jahreszahl innerhalb der Parameterliste erkennen können, auf welchen Disku-Seiten sie nicht mehr aktuell ist. Damit kann sie dann gezielt Wartungskat auslösen.
    • Es gibt übrigens noch 6.731 Zwobot: Toter Weblink von 2006 bis 2008; die können dann auch mal beerdigt werden.
LG --PerfektesChaos 10:51, 9. Dez. 2013 (CET)Beantworten
Okaaay, dann schreiben wir halt das Archivkürzel dazu. Nur kommt es mir nicht in den Sinn, welche ernstzunehmenden, anderen Archive es gäbe (OK, vielleicht in der Zukunft). Das mit dem Vorlagennamen ist sehr erhellend, das war mir noch nicht klar, und das macht es auch einfacher. Zu curl noch: Statuscodes siehe http://curl.haxx.se/docs/manpage.html#EXIT, falls du das nicht finden solltest. – Giftpflanze 21:11, 9. Dez. 2013 (CET)Beantworten

Ich habe die Kategorisierung und die Wartungslinks von {{Toter Link}} in eine Untervorlage {{Toter Link/Core}} ausgelagert. Diese Untervorlage wäre natürlich auch von einer speziellen Toter-Link-Bot-Vorlage nutzbar, aber vermutlich genügt es bei Toter Link im Fall eines befüllten botlauf-Parameters die Textausgabe anzupassen. Damit würden vorhandene Tools einfach weiterverwendbar.  Frohes Schaffen — Boshomi ☕⌨☺   15:38, 9. Dez. 2013 (CET)Beantworten


Unterm Tannenbaum …

Bearbeiten

… liegt das Lua-Modul.

  • Gemäß Labs/Beta anmelden und Defekte Weblinks aufsuchen.
  • Rumspielen nach Herzenslust.
  • @Gifti: Ich habe jetzt beim wba den Zeitstempel in den Link geschrieben; hoffentlich richtig. Bringt es was, zusätzlich noch mit /*/ aufzulisten, zwecks Auswahl der inhaltlich geeignetsten Version?
  • Zeitbedarf von der ersten bis zur letzten Zeile des Prototypen mit erstem Austesten: <12 Stunden. Aber dafür war schon seit einem halben Jahr das Konzept klar; blieb nur noch ein stupides Runterreißen.

Schönes Fest --PerfektesChaos 10:20, 24. Dez. 2013 (CET)Beantworten


Sehr schön. :) Nun nimmt die bisher abstrakte Vorlage konkrete Formen an.
Zum Thema wba: Ja, so war das gedacht, Zeitstempel statt des früheren * in den Link schreiben. Das ist allerdings nur die neueste Version, man kann in der Availability-API, die ich benutze, auch frühere Zeitpunkte suchen lassen, allerdings weiß ich nicht, wie wir den Zeitstempel sinnvoll automatisiert bestimmen sollen, deshalb ist es sinnvoll, darauf hinzuweisen, dass sich der Inhalt möglicherweise geändert haben könnte, und die Suche nach alternativen Zeitpunkten zu ermöglichen.
12 Stunden ist lange (aber sicherlich vom Aufwand her gerechtfertigt), Lua-Vorlagen sind ein bisschen leichter zu lesen als MediaWiki-Vorlagen, das ist schön, einige deiner Funktionsnamen sind allerdings ziemlich lustig, bleiben die so in der Endversion?
Und hier habe ich noch ein paar Verbesserungswünsche:
  • In der noch kürzlich umseitig zu lesenden Variante }} – ~~~~ ist die Vorlage fehlerbehaftet. Ich persönlich mag diese Variante, da sie im Quelltext weniger Platz beansprucht.
  • Bei auf Satzzeichen endenden URLs sollten wir den Fehler vermeiden, den ich letztes Mal beging. Der Link sollte das Satzzeichen miteinschließen, damit nicht wieder gesagt wird, dass der Link doch funktioniert, oder eben deutlich darauf hingewiesen werden. Also am besten den Link mit Satzzeichen melden und ausgeben, „probier doch mal den hier“ ohne Satzzeichen.
  • Bei einem nicht angegebenen Botlauf sollte statt „unbekannt“ „nicht vorhanden“ ausgegeben werden.
  • Die Darstellung falscher Flags/Kennungen (Schon wieder ein neues Wort, wirklich? Ist das die zu bevorzugende Endversion?) ist verwirrend, man könnte denken, dass hier Parameter und Flags durcheinander gebracht werden.
  • Was ich auf meiner Diskussionsseite noch nicht angesprochen hatte: Es gefällt mir nicht, dass SBL-Links ihres Protokolls beraubt werden sollen. Dieses ist für mich ein zwingender Bestandteil einer URL.
  • Warum werden „unerwünschte“ Links (SBL und E-Mail) fettgedruckt, das hebt die zu sehr hervor, sie erlangen mehr Bedeutung als ihnen gerechterweise zukommen sollte.
  • Können wir mit Bordmitteln die pageid zu einem anzuzeigenden Seitentitel auflösen? Das könnte für interessierte Korrektoren imho hilfreich sein. Ansonsten können wir darüber nachdenken, Lemmata statt pageids zu übergeben (+=[[a]],[[b]],[[c]],…).
  • Wenn wir das Wort „aktive“ Weblinks verwenden wollen, müssen wir in der Erklärungsuntervorlage/Benutzerdokumentation festlegen, was ein aktiver Link bedeuten soll (ich konnte es mir herleiten, bei anderen will ich das nicht voraussetzen).
  • Frage: Wie sieht es aus mit bereits mehrfach als defekt gemeldeten Links, also z.B. Zweitausendundx und 2012. Gebe ich alle diese Jahresangaben an oder willst du aussagen, dass der Link seit 200x als nicht erreichbar erkannt wurde.
Weitere fallen mir bestimmt noch ein, aber das wars erstmal. :) – Giftpflanze 15:16, 24. Dez. 2013 (CET)Beantworten


  • Funktionsnamen
    • Die bleiben so, und die brauche ich auch.
    • Weil sie local sind und kein Objekt gebildet wurde, muss die Deklaration physisch erfolgt sein, bevor ich die Funktionsvariable verwenden kann. Deshalb sind sie alphabetisch angeordnet (bis auf das „Hauptprogramm“ f) und eine Funktion darf eine andere Funktion nur verwenden, wenn der Name der anderen Funktion im Alphabet vorher kommt.
  • wba habe ich noch nicht verstanden.
    • Der Inhalt der Website könnte sich mehrfach geändert haben; von dem Inhalt, der gemeint war, als etwas belegt und die URL eingefügt wurde, bis zu der jüngsten Fassung mit dem Zeitstempel, die du gefunden hast, und die es vielleicht schon tut, aber inzwischen auch einen ganz anderen Inhalt haben könnte.
    • Ich würde beide angeben; die jüngste und den /*/.
  • Signatur
    • Da bekommst du das Problem, das im Moment auf /Test zu sehen ist.
    • Mit den beiden geschweiften Klammern endet meine Macht als Programmierer der Vorlage.
    • Bei den unterschiedlichen Formaten sieht das Ende jeweils anders aus; meist auf block-level.
    • Es müsste also ein sinnfreies nichtleeres Inline-Element am Ende der Vorlage erzeugt werden, nur um das zu verhindern; schiebt ein menschlicher Autor dann wie gewohnt die Signatur auf eine eigene Zeile, gibt es aber ggf. ein Loch.
    • Und dass dies im Quelltext besser zu lesen wäre, sehe ich anders; bei jeder Infobox und jeder Vorlageneinbindung mit vielen Parametern stehen die Klammern genau so auf einer eigenen Zeile. Dadurch sind sie für Ungeübte besser zu erkennen und der Bezug zum Beginn der Vorlage wird besser deutlich. In der gleichen Zeile mit Signatur dahinter und auch noch dem einzelnen Strichzeichen gehen sie leicht in der Signatur unter; unsere Autoren sind keine Parser und haben nicht den Syntaxblick wie wir.
  • Satzzeichen
    • Kein Problem.
    • Das ist auch die häufigste Entstehung; dass jemand offen eine durch Kommata getrennte Aufzählung in den Quelltext schrieb, und sie später jemand eingeklammert und mit Titeln versah hatte und dabei das Komma mit in die Klammer geriet. Der MediaWiki-Parser war da aber auch zu zweideutig mit URL-Syntax und Wikisyntax.
    • Ich brauche bloß zuerst in Klammern zu setzen und dabei die URL als Linktitel zu schreiben; und im Unterpunkt die URL erneut offen; den Rest macht MediaWiki.
    • Bereits umgesetzt.
  • Wortwahl „unbekannt“
    • Ja, oder „nicht angegeben“ oder „undefiniert“; eigentlich „fehlender Pflichtparameter“, noch grausliger. Mal sehen.
    • Der steht aber immer drin; da haben die Autoren wohl zuviel weggelöscht.
  • Flag (benutzerfreundlich eingedeutscht: Kennung)
    • Das entsteht, wenn manuell im vorderen Bereich der Vorlagenparameter herumgepfuscht wurde.
    • Eigentlich „Syntaxfehler“, noch unverständlicher. Vorschläge für bessere Formulierungen?
    • „Kennung“ wird in der Vorlagendoku erläutert und Tabellenüberschrift sein.
  • SBL und Protokoll
    • Im Idealfall tritt diese Meldung auf überhaupt keiner Disku auf.
    • Sie sollten vorab durch das gepriesene „Powerfixing“ durch erfahrene Fixer eliminiert werden; die 82 mailto können noch dieses Jahr aus den Artikeln entfernt werden. (Dein toolserver-Tool ist übrigens niedlich; bitte auf Labs, von wegen NR)
    • Angegeben ist das, was man als Suchstring braucht, um sie im Artikeltext zu finden. Einen anderen Zweck hat die Liste nicht.
    • Spam-URL können Schadsoftware enthalten; niemand soll sie mal eben in sein Adressfeld wuppen, und wir wollen auch niemand dazu verleiten.
    • In Fettschrift dargestellt sind sie, damit sie vorrangig aus dem Artikel entfernt werden; da braucht es auch keine Archiv-Recherche zu. Bloß weg damit, bevor jemand versucht, die Artikelversion zu speichern.
    • Allzu viele kann es davon eigentlich nicht im ANR geben; sobald jemand mal den Gesamt-Artikel bearbeitet und nicht nur einen Abschnitt, bleibt wenig anderes übrig.
  • curid/pageid
    • Beim letzten Lauf gab es, glaube ich, 82 169Ohne vorheriges Powerfixen Artikel mit identischer URL als Maximalwert. Auf alle die wäre zu verlinken.
    • Das erste Lemma davon könnte lauten Gesetz zur Bekämpfung der Kinderpornografie in Kommunikationsnetzen und dann noch zwei Dutzend von der Sorte; etwa 26 Listenartikel A–Z mit gleicher Quellenangabe. Hältst du das wirklich für eine gute Idee und fändest das übersichtlicher?
    • Falls du wirklich die Titel in die Vorlageneinbindung hineinschreiben möchtest, überlege, wie jetzt schon die Zeile im Quelltext aussehen würde. Wer soll denn da noch den Beginn des nächsten Weblink-Parameters finden?
    • Artikel können in den anderthalb Jahren, die es dauert, bis noch nicht einmal 100.000 Artikel des letzten Laufs bereinigt wurden, ein paar Mal umbenannt werden.
    • Rein zufällig wäre Lua in der Lage, zu einer curid den diese Woche gültigen Seitentitel herauszufinden; ist allerdings teuer und verlangsamt die Seitengenerierung. Ich bin ja nicht so und habe das für genau einen Link eingebaut.
    • Ich halte das jedoch bei mehr als einem Artikel trotzdem nicht für hilfreich für die Übersichtlichkeit der Liste. Draufklicken und schaun, wo man landet.
    • Gegenüber vergangenen Zeiten ist das doch bereits ein Riesen-Fortschritt, wenn man einmal mühsam eine neue URL recherchieren konnte.
    • Ggf. immer das Link auf die Suche nach allen hinzufügen; könnten seit dem Botlauf C&P-Clowns als neue Artikel hinzugekommen ein.
  • Wortwahl „aktiv“ / „deaktiviert“
    • Tja, mir fiel auch nicht Besseres ein; „unerledigt“ vielleicht. Oder „noch abzuarbeiten“. Müsste man aber auch definieren.
    • Das Wort „aktiv“ kommt aber im Lua-Modul überhaupt nicht vor; da gibt es nur Silent="%s'''%d''' deaktivierte URL vorhanden".
    • Steht auf Vorlage:Defekter Weblink/Anleitung und kann da blumigst und mit Singular- und Pluralformen ausgeschmückt werden.
    • Eine Vorlagendoku wird es zu gegebener Zeit in der echten WP auch geben; auf die wird ja schon bei den ausgeblendeten Listen jeweils verlinkt. Da wird für menschliche Bearbeiter erklärt, was sie zu tun hätten und wovon die Fingerchen zu lassen wären.
  • 1954 1974 1990 2006
    • Der frühestmögliche Zeitpunkt, zu dem diese URL schon unerreichbar war.
    • Wenn sie schon 2006 hi war, dann hat der Parameter den Wert 2006 und es ist schlimm genug, dass die URL nach sieben Jahren immer noch wirksam im Artikel steht.
    • Dass sie dann auch 2008 und 2012 nicht funktionierte, wundert niemanden mehr.
  • Dein Weihnachtsgeschenk:
    • Zwei Sichterrechte, für dich und den Bot.
LG --PerfektesChaos 14:20, 25. Dez. 2013 (CET)Beantworten


  • Funktionsnamen: Na, wenn du meinst; dann mach mal.
  • Bei wba sprechen wir eine Sprache, du scheinst es schon verstanden zu haben, zumindest hast du mich gut paraphrasiert.
  • Signatur: Das ist aber blöd von MediaWiki gelöst … Aber da kann man wohl nichts machen. So eine nackte Signatur fühlt sich natürlich trotzdem komisch an, aber ich werde sie verwenden.
  • Satzzeichen: Ich würde im zweiten Link, wo das Satzzeichen abgetrennt wird, dieses gar nicht anzeigen, das ist doch nur verwirrend und gehört gar nicht da hin.
  • Kennung (ich kann mit diesem Wort nichts anfangen, ich denke ans Funken, wie wärs mit Markierung?): Hier würde es helfen zu schreiben: Unbekannte Markierung in Parameter 1: wb (eventuell in die Zeile selbst schreiben?)
  • SBL: Auch ohne Protokoll kann man sie dazu verwenden, sie ins Adressfeld einzugeben (funktioniert bei manchen Browsern ja in genau der Form). Enthielten sie auch noch protokoll:\\, müsste man erstmal die Schrägstriche richtigstellen. Zudem kann es sinnvoll sein zu gucken, ob sich denn sinnvoller Inhalt dahinter versteckt. Aber mit der Eliminierung im Vorfeld hast du natürlich Recht. Dann braucht es allerdings auch keine besondere Darstellung mehr, es sei denn Ausnahmen sind dann in die Whitelist eingetragen worden. – Ich glaube du hast die Funktion der SBL noch nicht verstanden: Wird die inkriminierte Url nicht verändert, geschieht im Artikel gar nichts.
  • Danke für die Bezeichnung meines Tools als niedlich. :) Meintest du, dass ich einen Link auf dieses auf LT (so schön kann man übrigens die Ideen der WMF recyclen ;)) hinzufügen soll, oder dass ich es auf Labs portieren soll? Letzteres wird noch ein bisschen dauern (Umzug nach eqiad irgendwann im Januar, dann bugzilla:56995, schön wäre auch bugzilla:51129).
  • pageid/title: Die Auflösung der pageids zu beschränken, halte ich für eine gute Lösung. Bei der Lemmaverschiebung hast du Recht, da macht mein Vorschlag keinen Sinn. – Giftpflanze 20:42, 26. Dez. 2013 (CET)Beantworten


Sehr sehr schön soweit! Erlaube mir dennoch ein paar Kommentare/Wünsche/Nachfragen:
  • Über Formatierung und endgültige Text-Beschreibungen der Meldung wird sicher noch zu reden sein, daher zunächst mal nur Technisches:
  • Satzzeichen:
    • Kann vorab schon getestet werden, ob der Link ohne Satzzeichen am Ende einen validen HTTP-Statuscode liefert? Wenn es nämlich auch so nicht funktioniert, muss man den verkürzten auch gar nicht anbieten.
    • Wird ein / am Ende als "Satzzeichen" bewertet?
  • Archiv:
    • Angegeben wird (bisher) der Link zur jüngsten Archivversion. Kann geprüft werden, ob es weitere gibt und diese dann mit [* ältere Versionen] verlinkt werden?
    • Der aktuelle Text ("eine Version") passt nicht zum gezielten Link.
    • Der Link sollte nicht nackt, sondern mit Linktext erscheinen
  • Gleiche URL:
    • Es ist doch richtig, dass dort alle Seiten-IDs aufgelistet werden, in denen der defekte Link enthalten ist, selbst wenn das Hundert sein sollten, oder?
  • Sonderzeichen:
    • erfolgt eine Prüfung auf weitere (möglicherweise legale, aber höchst ungewöhnliche) Sonderzeichen? Gerade gestern gehabt: Ein Bisstrich anstelle des normalen Bindestrichs? Die werden hierzuWP ja gerne mal halbautomatisch ersetzt...
  • Spam-Links:
    • evtl. sollte das Wort "enfernen" gefettet, der Link dagegen nur kursiv gesetzt werden. Auch weichst Du hier von der sonst üblichen Reihenfolge (zuerst Link, dann Erläuterungen) ab.
  • Mehrere Tags
    • Wurde mW bisher noch nie diskutiert: Sind eigentlich auch mehrere Tags zu einem Link möglich? Also ein Link, der schon 2012 gemeldet war, ein WBA-Link hat und von dem mehrere Artikel mit gleicher URL existieren? Funktioniert das - und wie würde das aussehen (solltest Du in die Beispielliste aufnehmen)
  • Tote Domains
    • Wenn wir feststellen, dass das Dokument totedomain.com/dokumente/blubb/wichtigerinhalt.pdf nicht mehr errichbar ist, können wir dann zunächst prüfen, ob totedomain.com noch funktioniert? Falls nein, ist das Auflisten weiterer Page-IDs mit dem Dokumenten-Link nur die halbe Miete, dann sollte auch erwähnt werden, dass die komplette Domain offenbar down ist und ein Link zur Weblinksuche mit allen Domainverwendungen angeboten werden.
  • Kategorisierung
  • Archivierung
    • Hier ist mir nochnicht ganz klar, wo das hinführen soll. Sind alle Links erledigt, erlaubst Du automatisch die Archivierung. Das hat zur Folge, dass irgendwann offene und erledigte (aber noch nicht archivierte) Meldungen auf den Diskus stehen und weitere ereldigte im Archiv. Kommt dann irgendwann ein Botlauf 2015, müssen die doch auch alle wieder eingesammelt werden, oder sollen sie dann bleiben? Ich bin generell gegen eine Archivierung von Botmeldungen. Nach Abarbeitung könnten sie gerne per Wartungskat schreien: "Lösch' mich!"
Soweit für den Moment. Einen knusprigen Braten heute (oder auch einen leckeren Salat) wünscht --Mabschaaf 10:38, 26. Dez. 2013 (CET)Beantworten


  • Satzzeichen:
    • Kann vorab schon getestet werden, ob der Link ohne Satzzeichen am Ende einen validen HTTP-Statuscode liefert? Wenn es nämlich auch so nicht funktioniert, muss man den verkürzten auch gar nicht anbieten.
    • Wird Gifti schon können, musst du sie fragen.
    • Das ergäbe einen neuen Flag, ein Minuszeichen (ASCII 45) für: „Ohne Sonderzeichen funktioniert es aber.“
    • Den Hinweis würde ich auf jeden Fall geben: Ein Patient, der Läuse hat, kann auch Flöhe haben. Ohne das Satzzeichen wäre die Suche im Archiv oder sonstwo erfolgreich; richtig ist zwar die URL ohne Satzzeichen, aber der Webserver ist inzwischen pleite und antwortet nicht mehr.
    • Wird ein / am Ende als "Satzzeichen" bewertet?
    • Nein; das wäre auch schrecklich, weil viele URL so enden.
      • Hm, ich kenne etliche Fälle wie www.abc.de/text.pdf/ die aufgrund des letzten Slashs nicht funktionieren. Eine Prüfung wie: Link defekt? Ja! - Letztes Zeichen merkwürdig? Ja! - Funktioniert Link ohne letztes Zeichen? Ja! sollte zu einem konkreten Korrekturvorschlag des Links führen. --Mabschaaf 20:46, 26. Dez. 2013 (CET)Beantworten
    • Der Parser bewertet (,.;? als nicht zur URL gehörig, wenn sie offen im Text steht.
    • Ist aber legitimes URL-Zeichen: http://example.net/filmkritik=M.A.S.H.
  • Archiv:
    • Angegeben wird (bisher) der Link zur jüngsten Archivversion. Kann geprüft werden, ob es weitere gibt und diese dann mit [* ältere Versionen] verlinkt werden?
    • Würde Gifti vermutlich hinbekommen.
    • Neue Flag-Syntax beispielsweise: wba=123456789* mit Sternchen am Ende sagt mir, dass ich beide Varianten zeigen soll. Oder umgekehrt: wba=123456789- sagt mir, dass ich ausnahmsweise einmal die /*/ unterdrücken soll. Mal sehen.
    • Schlichtes wba heißt dann, dass nur /*/ gezeigt wird.
    • Der aktuelle Text ("eine Version") passt nicht zum gezielten Link.
    • Ist übernommen vom Lauf 2012. Putzarbeiten, die auch nach dem Lauf nachgesteuert werden können; erst mal sehen, ob das /*/ kommt.
    • Der Link sollte nicht nackt, sondern mit Linktext erscheinen
    • Doch, ich will ihn lesen und verstehen. Mir sagt das was.
  • Gleiche URL:
    • Es ist doch richtig, dass dort alle Seiten-IDs aufgelistet werden, in denen der defekte Link enthalten ist, selbst wenn das Hundert sein sollten, oder?
    • Völlig richtig.
    • Maximum 2012 waren 169 Artikel.
    • In die Vorlage werden alle curid=pageid geschrieben.
    • Ich kann mich immer noch spontan entscheiden, nur die ersten 10 sichtbar darzustellen und dahinterzuschreiben, dass es noch 159 weitere gäbe.
    • Das ist eine Sache für die bejubelten Power-Fixer. Bei den Statistiken sollen die 100 häufigsten URL ausgeworfen werden, und diese wären dann gezielt im Vorfeld zu beseitigen, so dass keine davon auf einer Diskussionsseite erscheint. Wenn nicht, werden sie in die Einbindung geschrieben.
    • Das kann sehr leicht in Vorlagen passieren, wenn die Datenquelle für die Einwohnerzahl von 564 Kuhdörfern putt ist. Da reicht dann aber ein Edit an der Vorlage und das Problem ist gelöst. Notfalls helfen Bot-Edits für Artikel und Disku-Bereinigung.
  • Sonderzeichen:
    • erfolgt eine Prüfung auf weitere (möglicherweise legale, aber höchst ungewöhnliche) Sonderzeichen? Gerade gestern gehabt: Ein Bisstrich anstelle des normalen Bindestrichs? Die werden hierzuWP ja gerne mal halbautomatisch ersetzt...
    • Ich kann mit Leichtigkeit prüfen, ob Non-ASCII-Zeichen vorkommen, und diese dann auflisten.
    • In internationalisierten URL (IRI/IRL) könnten Umlaute vorkommen; das habe ich aber in der WP jedoch extrem selten gesehen. Beim C&P vom Browser bekommt man die eigentlich URL-Escaped.
    • WSTM arbeitet vollautomatisch und schützt alle URL gegen unbeabsichtigte Textveränderungen; kann also nicht gemeint sein.
  • Spam-Links:
    • evtl. sollte das Wort "enfernen" gefettet, der Link dagegen nur kursiv gesetzt werden. Auch weichst Du hier von der sonst üblichen Reihenfolge (zuerst Link, dann Erläuterungen) ab.
    • Die Spam-Links können Schadsoftware installieren lassen, und sie sind für ungeübte Benutzer erschreckend, wenn man irgendwie an dem Absatz rumgemacht hat und nun gar nix mehr geht, und nicht weiß warum.
    • Wenn die Power-Fixer zu etwas gut sein sollen, dann sind die Spam-Links vorrangig zu entfernen, bevor eine einzige auf die Disku geschrieben wird. Mit mailto: kann man heute schon anfangen.
    • Die Spam-Links werden programmtechnisch völlig separat behandelt und sollen sich auch bewusst vom normalen Linkfixen abheben.
  • Mehrere Tags
    • Wurde mW bisher noch nie diskutiert: Sind eigentlich auch mehrere Tags zu einem Link möglich? Also ein Link, der schon 2012 gemeldet war, ein WBA-Link hat und von dem mehrere Artikel mit gleicher URL existieren? Funktioniert das - und wie würde das aussehen (solltest Du in die Beispielliste aufnehmen)
    • Steht auf Defekte Weblinks * Mal anders, mal mehr, mal weniger
    • Natürlich funktioniert das. Welch Frage. Ich bau doch keine Nippsachen.
  • Tote Domains
    • Wenn wir feststellen, dass das Dokument totedomain.com/dokumente/blubb/wichtigerinhalt.pdf nicht mehr errichbar ist, können wir dann zunächst prüfen, ob totedomain.com noch funktioniert? Falls nein, ist das Auflisten weiterer Page-IDs mit dem Dokumenten-Link nur die halbe Miete, dann sollte auch erwähnt werden, dass die komplette Domain offenbar down ist und ein Link zur Weblinksuche mit allen Domainverwendungen angeboten werden.
    • Das entnehmen Experten dem HTTP-Statuscode.
    • Siehe dazu das einen Punkt zuvor verlinkte Beispiel.
    • Allgemein sprechen die 500er Fehler für einen Server-Fehler. Manche davon sind allerdings ausdrücklich temporär (bin im Moment grad überlastet), aber der sollte nicht über Wochen bei vier Abfragen burnout haben.
    • Weblinksuche nur nach der Domain kann ich bei den 500ern zeigen.
  • Kategorisierung
    • Evtl. könnten Kats wie Kategorie:Artikel mit n defekten Weblinks nützlich sein.
    • Im laufenden Betrieb können alle paar Wochen neue Wartungskats eingeführt werden; etwa spezifisch für bestimmte Wunsch-Domains, Disku mit mehr als 20 unerledigten URL, entleerte Vorlageneinbindungen, mehr als 100 Artikel mit gleicher URL, oder was auch immer.
  • Archivierung
    • Hier ist mir nochnicht ganz klar, wo das hinführen soll. Sind alle Links erledigt, erlaubst Du automatisch die Archivierung. Das hat zur Folge, dass irgendwann offene und erledigte (aber noch nicht archivierte) Meldungen auf den Diskus stehen und weitere ereldigte im Archiv. Kommt dann irgendwann ein Botlauf 2015, müssen die doch auch alle wieder eingesammelt werden, oder sollen sie dann bleiben? Ich bin generell gegen eine Archivierung von Botmeldungen. Nach Abarbeitung könnten sie gerne per Wartungskat schreien: "Lösch' mich!"
    • Ich erlaube keine Archivierung, mindestens nicht automatisch.
    • Der Archivierungs-Verhinderer steht immer noch außerhalb der Vorlageneinbindung; ich habe keinen Einfluss darauf. Auch innerhalb könnte ich nicht meinen eigenen Quelltext verändern.
    • Wer den Verhinderer wegnimmt, erlaubt einem Bot die Archivierung.
    • Nachdem der Abschnitt auf einer Unterseite gelandet ist, werfe ich heute schon eine Wartungskat.
    • Um ihn wirklich erwünscht zu archivieren, muss zweierlei geschehen:
      1. Archivierungs-Verhinderer löschen
      2. Zusätzlichen Parameter Archiv=1 einfügen; der unterdrückt nur die Wartungskat.
    • Wenn Leute diese zunächst wertvollen Informationen, die nach der Abarbeitung nur noch Datenschrott sind, unbedingt für die Ewigkeit archivieren wollen, dann sollen sie auch was dafür tun.
    • Siehe Diskussion:Defekte Weblinks/Archiv
Schönen Feiertag --PerfektesChaos 12:26, 26. Dez. 2013 (CET)Beantworten


  • Das Prüfen mit weggelassenem Satzzeichen habe ich mal in meine Liste mitaufgenommen. Mit der wba-Angabe, wenn der neue Link auch nicht erreichbar aber im Archiv finden ist.
  • Ich weiß nicht, wie ich beim WBA vernünftig feststellen soll, ob es weitere Archivversionen gibt, außer die *-Seite zu parsen.
  • Auf die zurückgegeben Statuscodes würde ich mich nicht verlassen wollen, die Server geben zurück wie sie gerade lustig sind. Kaputte Links sind 200. Funktionierende gerne mal konstant 300 oder 500, etc.
  • Und dann möchte ich hier mal anmerken, dass diese feingliedrigen Beiträge sowohl in Quelltext (doppelte Leerzeilen zur Trennung nötig, langwierige Einrückungsänderung, viel scrollen) als auch in der Darstellung (Bildschirmmeter werden für ein paar läppische Beiträge produziert, Listenpunkte/Einrückungen erschweren die Lesbarkeit des Abschnittes und wieder viel scrollen) echt doof finde. Können wir das nicht anders lösen? – Giftpflanze 20:42, 26. Dez. 2013 (CET)Beantworten
<quetsch> Ich habe jetzt mal aus den in diesem Abschnitt entstandenen Spaghetti vier weiterführende Threads als eigene Abschnitte gemacht. Schlaf gut, irgendwann --PerfektesChaos 00:20, 27. Dez. 2013 (CET)Beantworten
  • Ist das letzte Zeichen einer URL ein Pipe (#124) soll geprüft werden ob der Link ohne Pipe funktioniert (ist fast immer der Fall), und das Pipe durch ein Leerzeichen ersetzt werden.
  • Funktionierende Links zu Waybackarchiv: "http://web.archive.org/web/timemap/$1" /* bzw. */ "http://web.archive.org/web/timemap/link/$1" /* $1=defekte URL */ Mit erster Variante erhält man auch gleich den http-Statuscode, und man braucht nur noch die erreichbaren anzeigen. Beispiel: Letzter Link hat 404 => http://web.archive.org/web/timemap/http://www.salsa-in-cuba.com/deu/artists_sonora_matancera.html
 Frohes Schaffen — Boshomi ☕⌨☺   21:49, 26. Dez. 2013 (CET)Beantworten
Die API funktioniert auch bei archive.is: Beispiel=> http://archive.is/timemap/http://home.vrweb.de/~teppers/1370934.htm (siehe download source code) Frohes Schaffen — Boshomi ☕⌨☺  22:08, 26. Dez. 2013 (CET)Beantworten

Programmierung nach Lua: JavaScript

Bearbeiten

Ein kleiner Kreis von Benutzern (zurzeit 28) setzt Benutzer:PerfektesChaos/js/defekterWeblinkBotVorlage ein.

Basierend auf der neuen Vorlageneinbindung sind zukünftig folgende neue Features vorgesehen:

  1. Diskussionsseite:
    • Es wird abgefragt, welche externe Links im Artikel wirksam sind. Wenn in der Liste der unerledigten URL diese nicht mehr im Artikel vorkommen, wird auffallend die Streichung empfohlen.
  2. Artikel:
    • Es wird abgefragt, welche URL (und Flags) auf der Diskussionsseite für den aktuellen Lauf gelistet sind.
    • In der Standardansicht und in der Vorschau werden im laufenden Text die beanstandeten URL rot umrandet.
    • Die Flags werden syntaktisch analog Lua analysiert, und auf Wunsch kann im Kopf des Artikels die Hinweisbox erweitert werden zu einer Liste sehr ähnlich der aktiven URL auf der Diskussionsseite.
    • Jede URL im Text bekommt eine nummerierte Sprungadresse ähnlich ref, und bei vorhandener Hinweisbox wird zu jeder dieser Sprungadressen von den defekten URL aus verlinkt.
    • Sofern die Text-URL nicht in einem Block der references steht, wird ein unmittelbares Link auf Abschnittsbearbeitung bereitgestellt, bezogen auf den Abschnitt, in dem die URL im Quelltext vorkommen müsste (closest?).
    • Auf der Diskussionsseite beanstandete URL, die im Artikel nicht mehr wirksam sind, werden zur Streichung vorgeschlagen.
    • Sollte eine URL mit Erledigt-Vermerk trotzdem im Artikel wirksam sein, wird Beschwerde geführt.
    • Auf Wunsch werden URL auch segmentiert verlinkt bereitgestellt:
      http://example.com/ dir / page.htm
    • Auf Wunsch Verlinkung mit spezifizierter Suchmaschine
      • Etwa Google mit site:Domain und Linktitel sowie Pfad-Segmente als Suchbegriffe

Bis dann --PerfektesChaos 14:51, 25. Dez. 2013 (CET)Beantworten

Das sieht schon recht vielversprechend aus. Wenn es möglich wäre, bitte ich um einen eng begrenzte Probeläufe (z.B. 20-50 Artikel) um etwas praktische Erfahrung im Umgang mit dem neuen Lauf zu gewinnen. Der jeweils nächste Probelauf sollte erfolgen, sobald der vorherige vollständig abgearbeitet ist. Frohes Schaffen — Boshomi ☕⌨☺   08:13, 26. Dez. 2013 (CET)Beantworten

BREAKING note: Pipe in URL

Bearbeiten
  1. Pipe-Symbole in der Vorlageneinbindung müssen aus syntaktischen Gründen escaped sein.
  2. Ich lege jetzt einfach mal fest: &#124;
  3. Wenn ein Pipe-Symbol in der URL auftritt, könnte eine syntaktische Verwirrung mit dem Titel eines Wikilinks zur defekten URL geführt haben. Ich werde deshalb die &#124; detektieren und die Sequenz davor zur gesonderten Linkprobe anbieten.
  4. Die %7C kann ich nicht erkennen, und das mag legitim escapeter Bestandteil einer so gemeinten URL sein.
  5. Bei der Generierung der HTML-Syntax macht der Parser aus dem HTML-Entity vermutlich in allen Anwendungsfällen alles richtig; notfalls helfe ich dann nach.
  6. Zwei Apostrophe ohne Leerzeichen davor sehen zwar im Quelltext unschön aus, funktionieren aber wohl auch in der Klammer korrekt.
  7. Zwei schließende geschweifte Klammern müssten dagegen escaped werden, damit die Einbindung keinen interruptus bekommt.
    • Ich lege jetzt einfach mal fest: Alle doppelten geschweiften Klammern sind zu escapen; also &#123;&#123; und &#125;&#125;
    • Ob dieser Fall jemals auftritt, wird man nach Ende des Botlaufs sehen. Ich wüsste keinen; dass mit Pipe das erste Wort des Linktitels angeschlossen wurde, kommt hingegen ab und zu vor.

LG --PerfektesChaos 12:53, 26. Dez. 2013 (CET)Beantworten

Ich meine mich zu erinnern, dass in den ganzen 5 Millionen Links kein einziger mit | vorkam (eine Suche bestätigt das). Ich glaube, MediaWiki escapet das automatisch, hast du dich damit auseinandergesetzt? (Die in externallinks gespeicherten Links sind nicht die Originale aus dem Quelltext.)
Oft (naja 85 Mal) gibt es {{{…}}} durch fehlende Vorlagenparameter, die dürften aber ob ihrer Balancierung unproblematisch sein. Dann gab es wohl noch ein komisches CMS, das {{ plus eine Art UUID hatte, von dem aber alle Links aus der Datenbank verschwunden zu sein scheinen. Und dann gibt es noch das hier: http://ekloges.ypes.gr/v2012b/public/index.html#{%22cls%22:%22level%22,%22params%22:{%22level%22:%22epik%22,%22id%22:1}}, was die Vorlagensyntax brechen würde. (btw: Wenn ich das auf vorgeschlagene Art und Weise escape löst der Satzzeichenerkennungsmechanismus aus …) Und 6 Links, wo wohl aus Versehen ein }} ans Ende gekommen ist. „Zwei Apostrophe ohne Leerzeichen davor sehen zwar im Quelltext unschön aus, funktionieren aber wohl auch in der Klammer korrekt.“ Kein Plan, was das bedeuten soll. – Giftpflanze 16:32, 26. Dez. 2013 (CET)Beantworten
Ich scanne auf jeden Fall erst den URL-String und unesape die beschriebenen Sequenzen.
Wenn sie in der Datenbank nicht vorkommen, fein. Ich scanne und unesape trotzdem.
Da sie erst unescaped werden, treffen sie hinterher auch die Satzzeichenerkennung nicht.
Wenn du beobachten kannst, dass sie immer Prozent-encoded bei dir ankommen, wäre das wieder etwas für meine Hint-Sammlung: Bei %7C ohne ein späteres %20 → „Es könnte ein Pipe-Symbol aus einem Linktitel in die URL geraten sein; verdächtiges erstes Wort des Titels: … – prüfe den Quelltext.“
Ich sehe das jedenfalls hin und wieder in den Seiten.
Schönen doppelapostrophierten Nachmittag noch --PerfektesChaos 16:49, 26. Dez. 2013 (CET)Beantworten
Wtf ist das denn für ne legale Syntax? Und welche Bedeutung hat das für uns? – Na dann schau dir mal das hier an: https://de.wikipedia.beta.wmflabs.org/w/index.php?title=Diskussion%3ADefekte_Weblinks&diff=4419&oldid=4418&oldid=4417 – Kann mir ein Beta-Steward (gibt es sowas?) irgendwie eine Captcha-Ausnahme/confirmed geben, oder soll ich das bisschen zu autoconfirmed noch warten? Für diese Änderung 2mal ein Captcha eingeben zu müssen, nervt. – Giftpflanze 17:04, 26. Dez. 2013 (CET)Beantworten
  1. Der Quellcode liegt auf meiner Festplatte, sammelt allerlei neue Ideen; neues Modul-Release vielleicht erst nächstes Jahr … muss ja vorher durchgetestet werden, und die Breaking ist grad erst von 12:53, 26. Dez. 2013.
  2. Der Umherirrende ist Bürokrat; lass dich zur Admina machen. Ich habe dir alle Häkchen gegeben, die ich konnte, du hast zurzeit den Status einer nichtautoconfirmten Sichterin.
LG --PerfektesChaos 17:13, 26. Dez. 2013 (CET)Beantworten
Gut, das hatte ich mir inzwischen gedacht. – Giftpflanze 17:21, 26. Dez. 2013 (CET)Beantworten

Detailfragen der Darstellung

Bearbeiten
  • Die vorrangige Aufgabe ist es jetzt, exakt zu klären, was auf einer Viertelmillion Diskussionsseiten stehen wird. Was da verpennt wird, lässt sich hinterher nicht mehr geradebiegen.
  • Das Lua-Modul wird im produktiven Einsatz alle paar Wochen leicht modifiziert werden (worüber die 250.000 Seiten sich beim reparsen freuen dürften), schon allein, um Wartungskats für Wunschdomains loszutreten.
  • Bei der Gelegenheit können dann jeweils immer noch Komma, Klammern, Wortwahl nachgesteuert werden. Im Moment verkleistert dieser Mikrokram den Blick auf das Wesentliche.
  • Aus den gesammelten Wünschen von oben:

Bei einem nicht angegebenen Botlauf sollte statt „unbekannt“ „nicht vorhanden“ ausgegeben werden.

  • Heißt heute abend „Botlauf fehlt: Pflichtangabe!“
  • Kann nur zustande kommen, wenn Menschen in der Einbindung rumgelöscht haben. Dann sehen sie halt gar nix mehr.

Die Darstellung falscher Flags/Kennungen (Schon wieder ein neues Wort, wirklich? Ist das die zu bevorzugende Endversion?) ist verwirrend, man könnte denken, dass hier Parameter und Flags durcheinander gebracht werden.

  • Heißt heute abend „Unerlaubte Syntax“
  • Das entsteht, wenn manuell im vorderen Bereich der Vorlagenparameter herumgepfuscht wurde. Soll man halt nicht machen.

Der aktuelle Text ("eine Version") passt nicht zum gezielten Link.

  • Dann halt anders formulieren.
  • Es ist doch noch überhaupt nicht festgelegt, wie viele Links und nur die jüngsten oder /*/ oder was auch immer aufgelistet wird.

Wie genau die Linktitel heißen würden.

  • Wiedervorlage nach dem Endsieg.

--PerfektesChaos 23:47, 26. Dez. 2013 (CET)Beantworten

wba

Bearbeiten

Klärungsbedarf.

  • Nur das jüngste, plus /*/ immer oder nur manchmal oder noch ganz andere URL als bisher bekannt?
  • Was steht in der Einbindung?
  • Sind andere Flags erforderlich, für andere URL?

--PerfektesChaos 23:49, 26. Dez. 2013 (CET)Beantworten

Ideal wäre das Memento das gerade älter als der Zeitstempel der Refid mit der der Originallink in den Artikel eingesetzt wurde. Praktisch dürfte das sehr schwer ermittelbar sein. Archive.is ist eine nützliche Option, da dort z.B. robots.txt ignoriert wird. Archive.is liefert leider keine brauchbaren http-statuscodes zurück, um den statuscode zu erhalten müsste man zumindest den title-tag zusätzlich einlesen. Archive.is gilt aufgrund der gewollten Anonymität als unsicher. Positiv fällt bei archive.is der sehr schnelle Server ohne erkennbare Ausfallzeiten auf. Vorschlag:
  • ais yymmddhhmiss url wenn wba keine 200er Links oder nur Weiterleitungen liefert. Bei archive.is sollten wenn möglich keine Shortlinks verwendet werden.
  • /*/ immer dann wenn in der timemap Weiterleitungen angegeben werden: anzeigen, ansonst kann darauf verzichtet werden.
  • Liefert web.archiv.org einen 500er-Status, muss die Suche nach ausreichender Zeit (mehrere Wochen!) wiederholt werden.
  • Wie man webcitation treffsicher und effizient abfragt, habe ich nicht heraus. Problematische sind die eigenen Urlencodierungen, die so manche mögliche Treffer vereiteln. Auch die langen down-Zeiten des webcitation-Servers sind für einen Botlauf hinderlich.
 Frohes Schaffen — Boshomi ☕⌨☺   00:40, 27. Dez. 2013 (CET)Beantworten
offtopic:
  • Erreichbare Links sollten per Upload sowohl bei archive.is als auch web.archive.org gesichert werden, wenn dort noch nichts archiviert ist. (Das bremst zwar den Botlauf, der aber dennoch um vieles schneller wäre als die Kapazitäten zum Abarbeiten der gefunden defekten Weblinks)
 Frohes Schaffen — Boshomi ☕⌨☺   00:40, 27. Dez. 2013 (CET)Beantworten
Das älteste (Datum) plus /*/. Häufig zeigt das jüngste den geänderten Zustand (anderer Inhalt, Fehlermeldung) vor dem Verschwinden der Webseite und ist dann unbrauchbar. Der Inhalt eines brauchbaren Archivlinks dient auch dazu, gezielt eine Suchmaschine befragen zu können, wenn Linktext oder sonstige Angaben zum Weblink im Artikel ungenau sind oder fehlen. --Thoken (Diskussion) 20:48, 6. Jan. 2014 (CET)Beantworten

Satzzeichen und Sonderzeichen

Bearbeiten
  • Wie genau sieht der Hinweis aus, dass ohne Satzzeichen die URL funktioniert?
    • Flag: einzelnes Minuszeichen (ASCII 45) heißt: ohne Satzzeichen geht es.
    • Flag: -wba=nnnnnnnn heißt: ohne Satzzeichen gibt es eine archivierte Version; Syntax ansonsten wie wba=nnnnnnnn.
  • Das Satzzeichen wird häufiger beim Einklammern mitgenommen. Den Schrägstrich habe ich noch nie gesehen; vielleicht gibt es einen tüdeligen Chemiker, der den grundlos dahinterpappt. Ist aber wohl kein systematisches Problem; warum auch? Wir können nicht für jede zwei Dutzend URL mit einer theoretisch möglichen Ursache eine spezielle Privatanalyse anbieten; bei absehbar einer halben Million URL.
  • @Gifti TODO: Bitte mal in der Datenbank / deiner EL-Abfrage prüfen, ob ein „–“ in der URL oder ein „ö“ überhaupt bei dir ankommt, oder ob unser schlaues System das schon genauso wegescapet wie die Pipe-Symbole.
    • Dann kann ich nämlich nicht sinnvoll nach Non-ASCII suchen; allenfalls nach %E2%80%93 für einen irrtümlichen Halbgeviertstrich. Solche UTF-8-Sequenzen sind aber gang und gäbe, und in der Regel nicht der Auslöser. Wenn für Word-Dokumente automatisch ein Dateiname aus der ersten Überschrift generiert wird, passiert das beispielsweise, und ist die beabsichtigte URL.
    • Ich suche in der aktuellen Version (ungetestet) %7C ohne ein späteres %20 → „Es könnte ein Pipe-Symbol aus einem Linktitel in die URL geraten sein; verdächtiges erstes Wort des Titels: … – prüfe den Quelltext.“
  • Momentan springe ich auch auf Non-ASCII an, kann das aber wieder rausnehmen.

--PerfektesChaos 00:07, 27. Dez. 2013 (CET)Beantworten

Ich habe die vollständige Datenbank der defekten 2012er-Links nicht, daher nur eine qualitative Aussage: Das kam schon gelegentlich vor, so oft sogar, dass ich mich noch daran erinnere. Gifti könnte sicher nochmal nachzählen, wieviele Links auf .pdf/ oder .html/ endeten (was natürlich nicht immer bedeutete, dass die Slash-losen Links funktionabel waren).
Pipe sollte durchaus öfter vorkommen, wenn Wikilinksyntax mit Weblinksyntax vertauscht wurden, also [http://www.abc.de|Beschreibung abc Link] statt [http://www.abc.de Beschreibung abc Link].--Mabschaaf 19:24, 27. Dez. 2013 (CET)Beantworten
598 mal endete 2012 eine defekte Url auf .http/, 161 mal .pdf/. – Giftpflanze 08:55, 28. Dez. 2013 (CET)Beantworten


Überzeugt durch Fakten.

  • Es gibt also zwei auslösende Situationen am Ende der URL:
    1. [(.,;?] wie bisher, bei allen URL
    2. Nach mutmaßlicher Dateinamens-Erweiterung:
      \.[a-zA-Z]+[^a-zA-Z0-9]
  • In beiden Fällen gibt es immer eine informative Meldung durh Lua.
  • Das Flag - seitens des Bot bedeutet, dass ohne das Zeichen die URL funktionieren würde.
    • Das muss ja nicht heißen, dass das dann auch inhaltlich richtig wäre.
  • Analog wäre -wba usw. in beiden Fällen der Hinweis darauf, dass es ohne das letzte Zeichen eine archivierte Version gäbe.
  • Mir ist immer noch schleierhaft, wo die Schrägstriche hergekommen wären.

Schönes Wochenende --PerfektesChaos 12:00, 28. Dez. 2013 (CET)Beantworten

Hier ein Beispiel für ein Pipe.--Mabschaaf 21:27, 7. Jan. 2014 (CET)Beantworten
Auf Ebene des Quelltextes ist das völlig klar; WSTM findet sie dort auch und schlägt gelegentlich an.
Aber Gifti liest die externen Links; und da sind diese und andere Zeichen möglicherweise escaped.
Wenn du dir den anschaust und deinem Browser sagst, er solle das PDF-Link beim ersten Eintrag unter „Literatur“ kopieren, und du lässt diese Zeichenkette in einen Editor plumpsen, dann steht dort http://www.meteorologie.at/docs/OEGM_bulletin_2009_1.pdf%7C
Nun ist dort zufällig ein Leerzeichen vor dem „PDF-Volltext“ – wenn das nicht wäre, stünde dort http://www.meteorologie.at/docs/OEGM_bulletin_2009_1.pdf%7CPDF-Volltext und das kann durchaus eine beabsichtigte URL sein, die auch genau so im Quelltext steht; solche URL gibt es.
Mit API/EL-Tabelle kann man von außen nicht unterscheiden, was im Quelltext steht und wie das gemeint ist; wir sehen nur die generierte Seite.
VG --PerfektesChaos 23:29, 15. Jan. 2014 (CET)Beantworten
Naja, es gibt doch noch die Randbedingung (um beim Beispiel oben zu bleiben): http://www.meteorologie.at/docs/OEGM_bulletin_2009_1.pdf%7C liefert 404, ohne %7C aber 200. Wenn also ein verkürzter Link (abgeschnitten vor dem Pipe [oder ohne andere merkwürdige schließende Sonderzeichen]) aus einem defekten einen funktionierenden Link macht, ist das doch einen Hinweis wert. Und für Dummies wie mich: Was ist eine EL-Tabelle?--Mabschaaf 23:44, 15. Jan. 2014 (CET)Beantworten
  1. Das musst du mit Gifti abmachen; dass sie ihren Laden dazu bringen möge, bei einem %7C am Ende oder sogar mittendrin auszuprobieren, wie das links von diesem Dings funktionieren würde, und wenn das einen Unterschied macht, ist es mutmaßlich (aber nicht sicher; es könnte auch eine Gliederung der URL mit einer inhaltlich völlig anderen „Ober“-Seite sein) ein verirrtes Pipesymbol aus verwechselter Wikisyntax.
  2. „EL“ steht für External Link und ist die Wiki-internationale und programmtechnische Bezeichnung für die deWiki-eigene Wortprägung „Weblink“; daher auch der Shortcut WP:EL.
MB ist alle --PerfektesChaos 00:00, 16. Jan. 2014 (CET)Beantworten
Ich gehe davon aus, dass Gifti hier mitliest; ob das umsetzbar ist oder überhaupt die Notwendigkeit dazu besteht, kann man ja vielleicht zunächst mal mit Durchzählen der Vorkommen bei den 2012er DWLs ermitteln.--Mabschaaf 09:07, 16. Jan. 2014 (CET)Beantworten

Weblinksuch-Tool

Bearbeiten

WP:LT meint schon wmflabs; LT heißt Labs Tools.

  • In der Funktion flink habe ich eine entsprechende Weiche eingebaut.
  • Meint: auf Labs portieren. Letzteres wird noch ein bisschen dauern (Umzug nach eqiad irgendwann im Januar,
    • Rennt ja nicht weg.
    • Aber ob der fehlenden NR-Filterung der MW-Weblinksuche ist das eine echte Bereicherung.
    • Ich kann zwar 500 Seiten abrufen und nach NR sortieren; aber wenn davon 480 aus dem falschen Namensraum sind, ist das etwas mühsam.

LG --PerfektesChaos 00:16, 27. Dez. 2013 (CET)Beantworten

Bearbeiten

Ein Hinweis für Giftpflanze: Der ANR ist nun bis auf eine einstellige Anzahl mailto-Link-frei. Allerdings beinhaltet die Vorlage:URV einen Mailto-Link zu permissions-de@wikimedia.org. Diese Adresse sollte also auf eine White-List; Artikel, die diesen Link enthalten, nicht deswegen gemeldet werden.--Mabschaaf 22:58, 28. Dez. 2013 (CET)Beantworten

Heißt: Alles auf die Domain @wikimedia.org wird schon irgendwie seine Richtigkeit haben.
LG --PerfektesChaos 23:30, 15. Jan. 2014 (CET)Beantworten
Ich habe gerade mal einen Artikel gefunden, in dem eine mailto eintragen ist: Alfons Vodosek, in allen anderen Fällen stammte der mailto: -Eintrag aus der {{URV}}  Frohes Schaffen — Boshomi ☕⌨☺00:00, 12. Feb. 2014 (CET)Beantworten

Normalisierung der Domain

Bearbeiten

Ich weiß nicht ob das bereits in der Bot-Software oder in den EL abgefangen ist; sicherheitshalber nochmals der Hinweis:

  1. Eine nackte Domain-URL muss auf Schrägstrich enden; egal was die EL auflistet.
    • Beispiel:
      Wenn im Artikel steht
      http://example.com
      dann muss dies behandelt werden, als ob dort gestanden hätte
      http://example.com/
    • Andernfalls gibt es zwei Einträge in der Liste, wenn die Domain oben in der Infobox ohne und unten unter Weblinks mit Schrägstrich angegeben wurde.
  2. Die Ressourcen-URL muss bis zum Pfadbeginn auf Kleinschreibung standardisiert werden.
    • Beispiel:
      HTTP://Example.COM/Story
      muss behandelt werden wie
      http://example.com/Story
    • Grund wie eben.

Im generierten Artikel finde ich mich schon zurecht.

LG --PerfektesChaos 19:21, 8. Feb. 2014 (CET)Beantworten

umgesetzt – Giftpflanze 11:11, 19. Apr. 2014 (CEST)Beantworten

JavaScript zum Beschnuppern

Bearbeiten

Das neue JavaScript steht zum Beta-Testen bereit:

  1. WP:BETA
  2. Danach: Defekte Weblinks/externalLinkProblem
  3. Dort im eigenen common.js installieren.

Viel Spaß --PerfektesChaos 23:22, 18. Feb. 2014 (CET)Beantworten

Verspricht eine nützliche Sache zu werden. Damit wird die Artikelseite (auch) zum Ausgangspunkt fürs Fixen, zu dem man zurückkehrt für den nächsten Weblinkfix, mit Links in den Einzelnachweisen zum Editieren der Abschnitte mit dem defekten Weblink. Das könnte die Aufmerksamkeit für defekte Weblinks erhöhen.
  1. Bei diesen hochgestellten Links zum Editieren eines Abschnitts ist die section-nr um zwei zu niedrig, "most recent editsection link" wird anscheinend nicht gefunden.
  2. Was ist mit "wirksame URL" gemeint? Im Artikel: als Weblink anklickbar, in der Diskussion: nicht erledigt bzw. nicht deaktiviert, nehme ich an. Dazu passt aber nicht diese Verwendung:
    1. "Kein Abgleich mit den wirksamen URL (auf der Diskussionseite)"[3], stattdessen nur Abgleich mit deaktivierten? klingt für mich sinnlos.
    2. "Bereits nicht mehr wirksam" bei Nr. 8 in der "Liste der Details", meint hier: weil in der Vorlage doppelt, auch als Nr. 18 vorhanden?.
  3. (betr. Modul) Eine Vorlagenzeile wie " |23=301 " ohne URL wird bei "deaktivierte URLs" mitgezählt[4], genügt hier nicht der produzierte Vorlagenfehler?
  4. (betr. Einbindung anderer Tools) Was ist in common.js falsch? Deadlinkfinder wird nicht aktiv. --Thoken (Diskussion) 20:48, 20. Feb. 2014 (CET)Beantworten
Danke schön für die „nützliche Sache“; so ist es gemeint.
  • Zu 1.) section= Kümmere ich mich drum, versuche es zu lösen. Wäre unschön, wenn die Abschnittsbearbeitung nicht greifen würde. Wird aber schon werden; wurde lediglich am Dummy entwickelt.
  • Zu 2.) wirksame URL – ist nur vorläufiges Vokabular; muss noch eine einheitliche Sprachregelung gefunden werden, die sich für Disku=Vorlage und Artikel unterscheidet. Vorschläge?
    1. Wirksam auf der Disku ist alles, was nicht durch einen Erledigt-Vermerk hinter der URL „deaktiviert“ wurde.
    2. Wirksam im Artikel sind alle externen Links, die noch als Links vorhanden sind.
      • Sie könnten aber mit ihrer Textpassage gelöscht, durch eine andere URL ersetzt, in nowiki gesetzt oder in einem Vorlagenparameter verborgen sein; dann sind sie auch nicht mehr wirksam.
      • Es darf nicht sein, dass eine URL in der Vorlage erledigt wurde, im Artikel aber noch wirksam ist.
      • Der Bot schreibt nicht zweimal die gleiche URL; ein wiederholter Parameter ist nicht vorgesehen.
  • Zu 3.) (Modul) Die Einträge erfolgen durch den Bot und haben von diesem richtig geschrieben zu werden.
    • Menschen dürfen nur dahinter einen Erledigt-Kommentar setzen, müssen aber die URL und den Bot-Eintrag in Frieden lassen. Oder sie löschen den Punkt komplett.
    • Machen sie das nicht, kommt es ggf. zu einem Fehler und Meldung; die Zählung ist bei detektierten Syntaxfehlern gegenstandslos und der Fehler ist zu korrigieren, oder der Eintrag komplett zu löschen.
    • Hier hast du ja von Hand simuliert; entweder mit URL, als ob Bot, oder löschen.
  • Zu 4.) Andere Tools – Weiß ich nicht; aber eigentlich beiße ich keine.
    • Im Prinzip müssten die sich ungestört überlagern.
    • TMg wird nur im Quelltext tätig; ich nur im HTML-Dokument der Seitenansicht oder Vorschau.
    • Zu Benutzer:Frog23/Dead Link Finder/de siehe meinen unbeantworteten Beitrag auf dortiger Diskussionsseite; bräuchte eine JS-Totalsanierung.
    • Deadlinkfinder kennt vielleicht kein wmflabs.org?
LG --PerfektesChaos 21:28, 20. Feb. 2014 (CET)Beantworten
Zu 1.)
  • War ein Logikfehler meinerseits; ist auf meiner Festplatte vermutlich gefixt.
  • Beta ist gerade unpässlich.
  • Testen würde ich schon gern vor dem Upload.
  • Update deshalb heute Abend oder am Wochenende.
VG --PerfektesChaos 10:12, 21. Feb. 2014 (CET)Beantworten
Ging inzwischen auch live. Schönen Sonntag

Bot-Test auf Beta

Bearbeiten

Ich denke, ich wäre dann bald soweit, den Bot auf Beta zu testen. Habt ihr irgendwelche Ideen, was man da testen sollte? Mir fällt da nämlich nix ein. – Giftpflanze 20:16, 19. Jun. 2014 (CEST)Beantworten

Du könntest ja einfach mal für ein paar Artikel simulieren, dass alle verwendeten Links defekt sind und die Meldung auf die Disku schreiben. Ich kann mir nämlich noch nicht recht vorstellen, wie das aussieht.
Zum Rest (Erkennung toter Links, Abräumen alter Meldungen, etc.) kann ich vermutlich nicht viel beitragen. Falls Du eine Live-Spielwiese brauchst, kannst Du Dir auch einen kleinen Katast aus der Chemie aussuchen, dort ist allerdings den 2012er-Meldungen gut hinterhergeräumt und es wurden fast alle gemeldeten Links gefixt. Ich würde das nur vorher in der WP:RC anmelden wollen, damit da keine Wellen hochschlagen. Ansonsten schon mal Danke für Deine investierte Zeit!--Mabschaaf 22:18, 27. Jun. 2014 (CEST)Beantworten

Schön, dass du weitergekommen bist.

  • Analysephase
    • Hier ist wohl kein Test mehr nötig.
    • Die URL kommen aus den EL der DB und die Artikelquelltexte kriegt der Bot nie zu Gesicht.
    • Die Artikel wurden schon längst erfolgreich analysiert, die DW-Datenbank wurde längst probehalber für die echte WP erstellt, wenn ich die Flüche über die mehrtägige Abarbeitung richtig in Erinnerung habe.
  • Diskussionsseiten
    • Deren korrekte Bearbeitung ist das eigentliche Ziel der Beta-Übung.
    • Die Aufgabe ist komplex und durchaus fehlerträchtig.
    • Es sollten Dummy-Artikel angelegt werden mit einheitlichem Namenspräfix
      DW Beschreibung der Situation
    • Genauer gesagt: Die Artikel dazu sind völlig überflüssig, es geht nur um die
      Diskussion:DW Beschreibung der Situation
  • Szenarien (spontane Ideensammlung):
    • Diskussionsseite existiert noch nicht
    • Diskussionsseite existiert mit einem sonstigen Abschnitt
    • mit einem Lauf von 2012
    • mit einem Lauf von 2012, einem sonstigen
    • mit sonstigen, einem Lauf von 2006
    • mit sonstigen, einem Lauf von 2006, einem sonstigen
    • mit sonstigen, einem Lauf von 2006, sonstigen, Lauf von 2012
    • mit sonstigen, von 2006, sonstigen, Lauf von 2012, sonstigen
    • mit sonstigen, von 2006, Lauf von 2012, sonstigen
    • mit sonstigen, Lauf von 2012 mit individueller Modifikation
    • mit sonstigen, Lauf von 2012 mit individueller Modifikation, sonstigen
    • Die früheren Läufe müssen, wenn keine manuellen Zusätze zu 2012, nach URL und Jahreszahl interpretiert und herausgeschnitten werden. Als langjährige Archivböttin sollte das klappen.
  • Schreiben des neuen Blocks mit Zusatzinfos
    • Nur URL
    • Mehrere URL
    • URL und davor allerhand Parameterkombinationen
    • Die Parameterkombinationen müssen von der Vorlage vollständig richtig erkannt werden. Klappt das nicht, ist irgendwo mächtig der Wurm drin.
  • Ergänzung des neuen Blocks um Jahreszahl
    • Wurde zu einer URL in einem früheren Lauf die gleiche URL erkannt, muss dessen früheste Jahreszahl on-the-fly der URL zugeordnet und beim Schreiben des Blocks berücksichtigt werden.
  • Reihenfolge nicht alphabetisch
    • Abarbeitung nach pageid=curid oder random, damit nicht eine Schiffs-Beo von HMS Abelia bis HMS Zulu (F18) an einem Tag geflutet wird.
  • Erprobung in der echten WP
    • Um Himmels Willen.
    • Das bringt gegenüber Beta nullkommanull Erkenntnisgewinn.
    • Das Programmieren einer Testumgebung nur für einen Chemie-Cluster macht unnötige Arbeit, muss sehr sorgfältig geschehen und bringt immer noch die Gefahr, nur durch die gesonderte Simulation bedingt etwas zu zerschießen, während die eigentliche Software korrekt läuft.
    • Der gesamte Botlauf kann auf Beta genuked werden und das beliebig oft, bis es von vorn bis hinten flutscht.
  • @Gifti:
    1. Bitte hier bestätigen, dass Giftpflanze und GiftBot zu dir gehören, und minimale Benutzerseiten anlegen.
    2. FYI

Liebe Grüße --PerfektesChaos 15:29, 28. Jun. 2014 (CEST)Beantworten

  • Ja, Giftpflanze@βdewiki und GiftBot@βdewiki sind meine. Danke für die Rechte.
  • Für den β-Testlauf noch zu erledigen:
    • 2× Implementierung des Auslesens der EL über API statt DB
    • Ersatz für templatetiger finden (du botest an, mir die Vorlagenparameter auszulesen), evtl. beim β-Test ganz weglassen (?)
  • Vor dem β-Testing läuft noch: die Abfrage des Waybackarchives (ca. 10 Tage Gesamtlaufzeit, 78 % erledigt, noch ca. 2 Tage), Abfrage der SBL, Fütterung der Datenbank mit diesen Ergebnissen, evtl. Zuordnen der URLs zu den Seiten, etc. Ich möchte beides lieber nicht gleichzeitig testen.
  • Ich habe bezüglich der alten Läufe nur implementiert, die Links des 2012er Laufes zu beflaggen (denn die habe ich in eine Datenbank überführt). Ansonsten werden alle alten Abschnitte einfach rausgeschnitten (nochmal der Hinweis: überbleiben werdende Abschnitte auf dewiki: Benutzer:GiftBot/Meldungen). Ich habe noch keine Ahnung, wie leicht sich die alten URLs auslesen lassen. Bevor ich das (zu) implementieren (versuche), sollten wir nochmal darüber diskutieren, ob es Sinn macht, Meldungen, die älter als 2012 sind, weiterzuführen.
  • Abarbeitung nach pageid ist schon fertig.
Liebe Grüße, Giftpflanze 17:03, 28. Jun. 2014 (CEST)Beantworten
@templatetiger – ich bot an, Vorlagenparameter auszulesen
  • Äh, kann schon sein, ich biete vieles an.
  • Um welche Vorlage(n) und welche Parameter ging es nochmal? Irgendwas wie Toter Link oder sowas, was ignoriert werden solle?
  • Boshomi hat auf seiner Festplatte eine Datenbank mit irgendwelchen Zuordnungen von Artikeln und bekannt toten URL.
  • Wikipedia:Technik/Labs/Tools/templatetiger gibt es ja wieder; Stand 7. April.
LG --PerfektesChaos 17:54, 28. Jun. 2014 (CEST)Beantworten
Ja, templatetiger gibts wieder, aber nur für „wirkliche“ Wikis, nicht für β-Wikis. Es ist nicht vorgesehen, dass Tools auf deren Datenbanken zugreifen (deswegen auch der Weg über die API).
Es werden URLs wie folgt ignoriert: url=$URL ∧ ({archiveurl, archiv-url, AlteURL} nicht leer ∨ offline=ja ∨ Vorlage ∈ {Toter Link, Dead link, Webarchiv, Webarchive, WebCite}) (oder siehe toollabs:giftbot/dwlb.tcl) – Giftpflanze 18:38, 28. Jun. 2014 (CEST)Beantworten
  • Ich verstehe den von dir geplanten Testmodus für Beta nicht so ganz.
  • Wie ich oben schrieb, ist die Analysephase ja wohl in trockenen Tüchern?
    • Du generierst eine DB aus allen im ANR vorkommenden URL, die nicht aufgrund formaler Kriterien bereits ausscheiden.
    • Du gleichst diese DB gegen andere Erkenntnisse ab; etwa Vorlage:Toter Link usw. und streichst diese Einträge für diesen oder alle Artikel aus der DB. (Warum eigentlich? Vielleicht lebt ja einer der ≈783 Schützlinge wieder; aber okay, wenn wirklich tot, muss das nicht auf der Disk nochmals eingetragen werden; wäre aber ansonsten Fall für Auferstehung, oder könnte WBA-Hinweis liefern)
    • Die dämlichen Zitationsvorlagen sollten eigentlich überhaupt keine wirksame URL mehr liefern oder zeigen, wenn sie sowieso schon wissen, dass stattdessen die Archiv-URL angezeigt werden muss (offline=1) und dann sind sie auch nicht in den EL. Aber das ist ein anderes Thema.
    • Füttern der DB mit SBL-Erkenntnissen.
    • Dabei kann dir Beta aber tatsächlich nur sehr wenig helfen. Das ist eine Aktion der DB-Manpulationen.
  • Beta ist dazu gedacht, um die Bearbeitung der Diskussionsseiten zu erproben.
    • Deshalb meine Liste oben.
    • Ich würde davon ausgehen, dass du eine Dummy-DB mit 12 Seiten und 5 URL kreierst und dem Bot sagst, er solle anhand dieser DB über die Beta-(Diskussions)-Seiten laufen.
  • Ich schrieb oben, du würdest die Artikel nicht brauchen.
    • Den Inhalt der Artikel brauchst du auch nicht. Hier kann einheitlich eine Zeile drinstehen.
    • Du benögst allerdings deren pageid, um über die pageid zum aktuellen Lemma und von diesem auf die Diskussionsseite zu finden.
  • Wenn Templatetiger nicht aktuell ist, müsste man per Bot über die Echt-Artikel laufen, in denen die fraglichen Vorlagen eingebunden sind, und deren URL selbst aus dem Quelltext als Parameter fischen. Wobei sich eine Wartungskat bilden lässt, die nur Artikel zeigt, bei denen offline=1 gesetzt ist. Wenn ein paar nicht gefunden werden, weil der Quelltext bescheuert formatiert wurde, wird halt hie und da mal eine URL zuviel auf die Disku geschrieben.
    • Oder man setzt für die Dauer deines URL-EL-Sammellauf in allen beteiligten Vorlagen bei offline=1 die URL in nowiki oder macht sie sonstwie platt, so dass sie nicht in den EL auftauchen. Ich denk, sie sind dann sowieso funktionsuntauglich? Also kein Verlust.

HGZH --PerfektesChaos 19:19, 28. Jun. 2014 (CEST)Beantworten

Ich hatte deinen Testmodus auch nicht so ganz kapiert. Ich bin davon ausgegangen, auf Beta so nahe wie möglich an der richtigen Wikipedia zu testen. Eine andere Möglichkeit hätte ich darin gesehen, mit den richtigen Daten von dewiki auf Beta zu testen (Neuanlage von Diskussionsseiten, bzw. Modifikation dieser, wenn wir sie vorher anlegen). – Giftpflanze 03:08, 29. Jun. 2014 (CEST)Beantworten


  • Mit dem zweiten Teil „Eine andere Möglichkeit“ liegst du ja genau bei dem, was ich meine. Die Analyse hast du doch längst im Griff, und die auf Beta nochmal seit Adam und Eva zu testen, würde eine immense Simulation erfordern, um die DB als Resultat herauszubekommen, von der du ja heute schon schauen kannst, ob in stichprobenartig ausgewählten echten Artikeln die URL richtig erfasst wurden.
  • Nur würde ich für sowas nie 10 kB endlos öder echter Diskussionen verwenden, sondern unter Beibehaltung aller relevanten Merkmale und Kombinationen Mickymausdaten:
== Erster Abschnitt ==
Ratattelratattel

== Toter Weblink ==

Bei mehreren automatisierten Botläufen wurde der folgende Weblink als nicht verfügbar erkannt. Bitte überprüfe, ob der Link tatsächlich unerreichbar ist, und korrigiere oder entferne ihn in diesem Fall!

* http://example.org/UnauffindbarSchon2007

--[[Benutzer:Zwobot|Zwobot]] 21:54, 31. Jan. 2007 (CET)

== Sonstiger Abschnitt ==
Blablabla

== Defekte Weblinks ==

{{Defekter Weblink Bot|GiftBot}}
* http://example.org/Unauffindbar
* http://example.org/UnauffindbarSchon2007
– [[Benutzer:GiftBot|GiftBot]] ([[Benutzer Diskussion:GiftBot|Diskussion]]) 12:34, 10. Aug. 2012 (CEST)

== Und noch’n Abschnitt ==
Hinter eines Baumes Rinde wohnt die Made mit dem Kinde
  • Hier ist übersichtlicher nachzuvollziehen, wie das beabsichtigte Ergebnis aussehen würde und was tatsächlich passierte und ob das übereinstimmte.
  • Okay, ein blank ist auch minimal; werde bei dir zukünftig untere Limts angeben.
    • Gemeint war natürlich [[w:de:Benutzerin:Giftpflanze]] usw.

Schönen Sonntag --PerfektesChaos 09:57, 29. Jun. 2014 (CEST)Beantworten

Ich würde sagen, von Botseite sollte die Erprobung auf Labs abgeschlossen sein. Ich würde dann ab 1. November 5mal testen und könnte dann ab Mitte Januar die Meldungen verteilen. – Giftpflanze 17:14, 19. Okt. 2014 (CEST)Beantworten
Ich würde mir gerne vorab die größeren Brocken auflösen (siehe WP:BOTFLAG), das hätte den Vorteil, dass dann doch einige 1000 Einträge weniger notwendig werden.
Eine recht aktuelle Idee: Wäre es möglich die Metadaten des Botlaufs auf Wiki-data abzulegen? Der Datensatz könnte vereinfacht so aussehen:
 Wikipediaseite=de.Bla, URL=http://example.org/foo, httpstatus=302, redirekturl=foo.example.org/f/, wayback=20121012010203, eingangdatum=(Datum der Registrierung), ausgangsdatum=(nicht mehr im Artikel verwendet)
 Frohes Schaffen — Boshomi ☕⌨☺17:34, 19. Okt. 2014 (CEST)Beantworten
  • @Giftpflanze
    • Klingt ja prima.
    • Aber ich habe den Automatismus zur Umstellung der Diskussionsseiten auf WP:BETA noch nicht gesehen?
  • @Boshomi
    • Die Labs-User haben dort Account und Webspace und können beliebige Text- und SQL-Dateien zum Download ablegen. Dazu muss man nicht auf ein wildfremdes Projekt.
    • Das war ja ohnehin so abgestimmt.

LG --PerfektesChaos 17:53, 19. Okt. 2014 (CEST)Beantworten

Sowas? – Giftpflanze 17:58, 19. Okt. 2014 (CEST)Beantworten
@PerfektesChaos: Die Idee die mich treibt ist, dass ich das was ich unter WP:WLWT mache, mittelfristig gerne an einen Server delegieren will, und wikidata zwar eine technisch doch eine hervorragende Infrastruktur bietet, aber abgesehen von Wartungstätigkeiten derzeit zu nicht viel taugt, weil man dort zu viel belegfreien Inhalt abgelegt hat. Frohes Schaffen — Boshomi ☕⌨☺18:16, 19. Okt. 2014 (CEST)Beantworten
@Giftpflanze: Ja, genau sowas war gemeint; im Dezember nochmal alle Disku-Konstellationen unter aktuellen Rahmenbedingungen durchlaufen lassen und hier Info droppen, dass noch alles in Ordnung ist.
@Boshomi:
  • Wikidata ist das absolut falsche Projekt für eine solche Aufgabe.
  • Das gehört auf Labs.
    • Dort kann eine große SQL-DB residieren, die für alle URL aller Wikis die Rahmendaten hält (technisch zuletzt funktionierend gesehen YYYYMMDD, keine Antwort mehr seit YYYYMMDD, Statuscode 678, Archivlink bekannt bei xyz.org, globale/lokale SBL, letzter erfolgloser Kontaktversuch YYYYMMDD).
    • Benutzer können manuell die Überprüfung des Artikels X im Wiki Y anschubsen.
    • Es kann auch sein, dass die Domain xy.com seit einem Vierteljahr die Stromrechnung nicht bezahlt hatte und jetzt wieder live ist; dann kann man das Tool manuell anregen, die Domain xy.com erneut zu bewerten.
    • Benutzer bekommen jedoch keinerlei direkten Zugriff auf irgendeinen Datenbankeintrag, wie das auf Wikidata möglich wäre.
    • Benutzer können nur für eine konkrete URL, Domain, Seite im Wiki oder Kategoriebaum im Wiki oder nach Absprache komplettes Wiki eine Überprüfung beantragen; in einfachen Fällen durch Aufruf einer entsprechend parametrisierten Tool-URL bzw. interaktives Formular. Das Tool entscheidet dann gemäß der Einträge in der DB, ob und welche HTTP-Kontaktversuche es dann in die Abarbeitungswarteschlange aufnimmt.
  • Du hast die Angewohnheit, in strukturierten Diskussionsabschnitten zu ganz konkreten Themen und Angelegenheiten komplett neue riesige Schlachtfelder aufzumachen; wodurch Diskussionsabschnitte filibustiert werden. Bitte eröffne in solchen Fällen einen neuen Diskussionsabschnitt, wenn du OT-Betrachtungen anstellst und eine vom Kernthema wegführende Antwort zu erwarten ist.
LG --PerfektesChaos 11:15, 9. Nov. 2014 (CET)Beantworten

Letzte Fragen und Planungsschritte

Bearbeiten

Mabschaaf, PerfektesChaos, Boshomi, Ättänschn plis!

Wir sollten vielleicht schon mal die Vorlagendarstellung, die Abarbeitungsanleitung/Hilfeseiten/Projektseiten und die Ankündigungen anleiern, ab Januar/Februar solls ja losgehen.

Ein paar Sachen hätte ich noch zu klären:

  • Ich suche derzeit auf archive.org nach Archivlinks. Gibt es weitere Archivseiten, die ich durchsuchen und anbieten soll? archive.today, webcitation.org?
  • Wie werden bereits als tot markierte Links im Quelltext dargestellt? Welche Vorlagen und Parameter werden benutzt?

Giftpflanze 08:00, 9. Nov. 2014 (CET)Beantworten

  • Mindestens Vorlage:Internetquelle und Vorlage:Cite web haben einen offline-Parameter.
  • Bei dem Rest der involvierten Vorlagen habe ich schon vor längerer Zeit den Durchblick verloren, was da vor sich geht.
  • Der simulierte Durchlauf auf BETA mit dem Löschen der früheren Bot-Ergebnisse sollte Richtung Dezember wiederholt werden, wie wohl schon im Juli erfolgreich gewesen. Seitdem könnte sich aber irgendwo eine Rahmenbedingung geändert haben.
  • Dabei sieht man ja auf BETA auch, ob Modul+Vorlage korrekt zusammenwirken.
  • Weiter oben steht ja der Generalstabsplan.
  • Ich selbst habe mittlerweile sämtliche Details völlig vergessen und muss mich kurzfristig vor dem Start von Aktivitäten komplett neu einarbeiten. Soweit ich persönlich noch etwas zu tun hätte, habe ich mir dafür Anfang Dezember vorgemerkt.
LG --PerfektesChaos 10:51, 9. Nov. 2014 (CET)Beantworten
  • |offline= und archive-Parameter haben {{Internetquelle}}, {{Cite web}}, {{Cite news}}, {{Cite journal}}, {{Smartvote.ch}} und {{Handball-Lsp-D}}(kann gesubstet werden, da nicht mehr verwendbar) dazukommt noch {{Tagesschau}} mit dem Parameter AlteURL=
  • Es gibt einige verlässliche nationale Archive wie http://webarchive.nationalarchives.gov.uk oder http://vefsafn.is/ die die selbe Engine wie archive.org verwenden. Siehe auch da: en:List_of_Web_archiving_initiatives
  • Zu beachten sind auch die Archive-Vorlage Webarchive und Archive-Parameter in den oben genannten Vorlagen.
  • Ich habe in den letzten Wochen übrigens die gesamte web.archive.org / wayback.archive.org Authority syntaktisch vollständig harmonisiert. web.archive.org/web/d{14}/ wird im ANR für konkrete Mementos verwendet, wayback.archive.org/web/*/ wird ausschließlich von der Vorlage Toter Link verwendet. wayback.archive.org/web/d{14}/ hätte ich auch für Botläufe vorgesehen, die kontkrete Mementos setzen, aber manuell kontrolliert/nachbearbeitet werden müssen. Dank giftbot/Weblinksuche haben wir für diesen Zwecke eine hocheffiziente Wartungsliste zur Verfügung.
  • Ein brauchbares Archive, dass mir in letzter Zeit einigemale untergekommen ist, ist http://archive.wikiwix.com/ Die Initiative dazu ging von frwiki aus, und ist auf die französische Rechtslage ausgelegt.
  • Gelegentlich hilft Google Webcache, wobei die Vorhaltezeiten gering sind. In dewiki habe ich diese Links komplett ersetzt. Ein Sichern solcher Seiten, wo auch immer, kann sich als nützlich erweisen.
  • archive.today ist gelegentlich nützlich, kann aber wegen der rechtlichen Problematik nicht pauschal verwendet werden. Problemlos wäre etwa die Verwendung für abandonierte Inhalte, wobei ein Bot das Problem hat, dass das nicht automatisiert feststellbar ist.
  • @PerfecteChaos: Könntest du die Base62 für den dewiki freischalten? Ich würde das gerne für die bestehende Untervorlage {{Webarchiv/Webcite}} verwenden, um dort das Datum direkt auszugeben. Hintergrund ist, dass ich die Original-URL direkt über die Vorlage Webarchiv mit der webcite-url verknüpfen möchte. Derzeit ist die Original-URL in vielen Fällen im Quelltext nicht mehr auffindbar, und muss ergänzt werden. Das Eintragen des Datums per Hand wäre bei der Anzahl der notwendigen Edits eine enorme zeitliche Mehrbelastung.
  • Wünschenswert für mich wäre eine direkte Abfragbarkeit aller aktuell im ANR vorkommenden gefundenen defekten Links über die external Link-API/gibtbot-weblinksuche. Hierfür könnte man analog zur {{Toter Link/Core}} entsprechende versteckte Wartungslinks ausgeben. Toter Link verwendet hierfür die Authorities in der .invalide Domain <span style="display:none">[http://{{#if: {{{botrun|}}}|{{{botrun}}}|deadurl}}.invalid/{{{url}}}]</span>, wobei auch archive.org geeignet wäre z.B. [http:/​/deadurl.invalid/{{{url}}}]. Man könnte allerdings genauso archive.org verwenden http://giftbot201501.web.archive.org/web/*/http://example.org/ (in dieser stark individualisierenten Form nur über http: / https: unterstützt nur web.archive.org/web und wayback.archive.org/web). Hintergrund ist, dass ich die Informationen die andere Benutzer beim Fixen von Links erarbeiten, möglichst schnell anderen zur Verfügung stellen und für das Fixen weiterer Links verwenden möchte.
 Frohes Schaffen — Boshomi ☕⌨☺13:10, 9. Nov. 2014 (CET)Beantworten
  • Modul:Expr hat nur 16546 Einbindungen; da kann ich das mal zwischendurch verantworten, und es bleibt vorerst undokumentiert.
  • Der Code ist zurzeit aus guten Gründen gesperrt; ich kann aber die Übernahme aus BETA beantragen oder die Entsperrung veranlassen; muss ich erstmal denken.
  • Ich hatte mich einen Abschnitt drüber bereits dazu geäußert, dass du die Angewohnheit hast, zu wildfremden Themen (hier: Was ist für den Giftbot bis Dezember zu erledigen?) völlig zusammenhanglose Ausflüge einzuschieben, die eine gezielte Erörterung des Kernthemas sabotieren und auch hinterher ein Nachvollziehen der Themensprünge völlig unmöglich machen.
VG --PerfektesChaos 18:50, 9. Nov. 2014 (CET)Beantworten

webcitation.org

Bearbeiten

(ausgegliedert; OT für Gesamtdarstellung)

Ich habe webcitation.org jetzt mit aufgenommen (PerfektesChaos: Bitte in die Vorlage aufnehmen, vorgeschlagenes Kürzel: [-]cit=[Millisekundenzeitstempel]). Bei den beiden von dir genannten Archiven weiß ich nicht, wie ich sie abfragen soll (wahrscheinlich mit dieser Memento-Scheiße), eine Availability-API wie archive.org haben sie jedenfalls nicht. Ich denke auch nicht, dass es sinnvoll ist, sie mit mehreren Hunderttausend Links zu bombardieren. Geeignete Archive sollten imho von der Vorlage/der Anleitung angeboten werden. Und bei archive.wikiwix.com habe ich leider keinerlei Anhaltspunkt, wie ich es abfragen kann. Zu der Markierung defekter Links bleibt festzustellen, dass sich angesichts eurer Informationen nichts geändert hat. – Giftpflanze 21:41, 29. Nov. 2014 (CET)Beantworten
Ich quittiere:
  • Syntax erhält neuen Feld-Parameter, cit= oder -cit= analog zu wba=.
  • Zugewiesener Wert ist irgendwas in nur Ziffern oder Ziffern+Buchstaben als Base62, das ich in diesem Fall wie vorgefunden in eine URL einbaue und betitelt verlinke.
  • Base62 würde ich ob der Kürze bevorzugen.
  • cit= darf zusammen mit wba= auftreten, falls das jemand glücklich macht.
LG --PerfektesChaos 21:55, 29. Nov. 2014 (CET)Beantworten
OK, magst du wba auch in base62? – Giftpflanze 22:36, 29. Nov. 2014 (CET)Beantworten
Mögen würde ich das zwar nicht so sehr, wenn ich das vor Einbau in die URL noch zurückrechnen müsste.
Aber im Interesse einer Verkürzung der Flags würde ich mir das antun.
Oder kapiert der dortige Server das?
LG --PerfektesChaos 22:47, 29. Nov. 2014 (CET)Beantworten
Achso … Ne, das versteht archive.org nicht. – Giftpflanze 23:24, 29. Nov. 2014 (CET)Beantworten
Es ist an dir. Wenn du das gern verschlüsseln möchtest, dann meinetwegen. Momentan ist es etwas länger, dafür menschenlesbar. LG --PerfektesChaos 00:17, 30. Nov. 2014 (CET)Beantworten

Vorlagendarstellung, Abarbeitungsanleitung

Bearbeiten

Könnte mal jemand präzise verlinken, wo man auf Beta eine GiftBot-Meldung der neuen Bauart finden kann (idealerweise eine, die möglichst viele der neuen Funktionen auch abdeckt)? Dann könnte ich mir mal ein paar Gedanken zu den aufgeworfenen Fragen machen.--Mabschaaf 08:07, 10. Nov. 2014 (CET)Beantworten

Voilà.
Es fehlen mindestens Testläufe an diesen Dummies hier, ggf. mehr Dummy-Konstellationen gemäß weiter oben.
LG --PerfektesChaos 10:15, 10. Nov. 2014 (CET)Beantworten
Testlauf durchgeführt, PerfektesChaos. – Giftpflanze 20:25, 19. Nov. 2014 (CET)Beantworten
Fein, fein. Danke schön, sehr beruhigend --PerfektesChaos 21:15, 19. Nov. 2014 (CET)Beantworten
+1. Entfernst Du auch die ganz alten Meldungen, von ZwoBot und Konsorten?--Mabschaaf 09:00, 20. Nov. 2014 (CET)Beantworten
Ja. – Giftpflanze 18:09, 24. Nov. 2014 (CET)Beantworten

Zur Vorlagendarstellung: Ich bin da gerade völlig ratlos. Durch die vielen neuen Funktionen bräuchten wir eine noch deutlich ausführlichere Anleitung als 2012. Jeder einzelne defekte Link braucht in der Darstellung auf der Disku jetzt aber auch mehrere Zeilen. Beides zusammen führt zu uferlosen Abschnitten, die die Diskus völlig zukleistern. Wie sollen wir das angehen?--Mabschaaf 09:00, 20. Nov. 2014 (CET)Beantworten

  • Es muss eine operationale Bedienungsanleitungsseite aus Normalnutzer-Sicht im Bereich WLW vorhanden sein; auch mit Erläuterungen zu den neuen Features.
  • Der momentane Kasten muss für die neue Vorlagenversion soweit heruntergekürzt werden, dass jemand, der ihn noch nie gesehen hat, erklärt bekommt, was zu tun ist und was nicht.
  • Die meisten Autoren, die schon ein oder zwei Jahre dabei und keine kompletten Ignoranten sind, müssten ja den Kasten von 2012 allmählich kennen. Die Optik sollte sich annähern; es darf nicht nach etwas völlig Neuem aussehen.
  • Für alle Details muss die zentrale Anleitungsseite herangezogen werden und die weniger Kundigen sind deutlich dorthin zu stupsen.
  • Die mühsam ermittelten Details zu jeder einzelnen URL können jetzt nicht wieder verborgen und versteckt werden, bloß um eine Seite aufgeräumter aussehen zu lassen.
LG --PerfektesChaos 14:37, 20. Nov. 2014 (CET)Beantworten
  • Warum im WLW-Bereich? Das sollte mM eine Seite im HNR sein: H:DW ist frei.
  • Anzupassen wäre zusätzlich WP:DW
  • Auf welcher Seite soll der Text für den neuen Kasten abgelegt werden? Können wir das auf beta gemeinsam entwickeln/testen?
  • Schwierig wird die Übergangsphase: Gleichzeitig alte und neue Kästen und Hilfeseiten, die beides bedienen müssen.
  • Nein, Details sollen natürlich nicht versteckt werden. Aber folgende Vorschläge:
    • Ich persönlich finde die gestaffelten Listenpunkte sehr unübersichtlich. Wäre es nicht vielleicht sinnvoll, die Parameternummer aus dem Quelltext zu einer Listennummer in der Meldung zu machen?
    • Die URLs auf das Webarchiv müssen nicht ausgeschrieben werden, sondern sollten einen Linktext bekommen (2012 waren die zunächst auch sichtbar und wurden dann optisch gekürzt)
    • Kein Zeilenumbruch vor dem Archivlink, damit keine dritte Einzugsebene
    • Wie hattest Du Dir das mit den inaktiven/kommentierten Links vorgestellt? Sollen die einfach im Quelltext verschimmeln?
VG --Mabschaaf 15:37, 20. Nov. 2014 (CET)Beantworten
  • HNR: Grundsätzlich nein; der HNR dokumentiert Funktionalitäten der weltweiten MediaWiki-Software bzw. ist bereits zu 90 % darauf profiliert.
  • Im WPNR stünde WP:DW-Unterseite oder WLW oder sowas zur Verfügung, wie schon seit vielen Jahren; je nachdem wer die Schirmherrschaft übernehmen möchte. Diese spezielle Anleitungs-Unterseite sollte jedoch an eine Navigationsumgebung angebunden sein.
  • Die Disku-Anleitung stünde auf diesem Pendant – das ist allerdings auf Beta bewusst sparsam gehalten, um nicht mit Infos zuzudröhnen.
    • Experimentieren kannst du damit in jedem Projekt auf jeder beliebigen Seite; von deinen Benutzerseiten über Beta bis zum eben verlinkten Seitennamen hierorts.
  • Schwierig sollte an der Übergangsphase überhaupt nichts sein.
    • Die beiden Vorlagen (2012 und 2015) haben grundverschiedene Namen.
    • Die auf der Disku sichtbaren Anleitungen stehen auf unterschiedlichen Vorlagenseiten und haben abweichende Inhalte.
    • Die verlinkte neue Anleitungsseite im WPNR bekäme einen deutlich unterschiedlichen aber geschmeidigen Namen und ist ausführlicher als bisher.
  • Parameternummer und Listennummer ist immer für irgendwen verwirrend. Wenn die in der Normaldarstellung auf der Diskussionsseite nicht fortlaufend sind, dann kommt jemand auf die Idee, wir könnten nicht zählen, weil 1, 2, 4, 5, 7 ohne erkennbaren Grund – wenn die Parameternummer also auf der Diskussionsseite erkennbar wäre, dann kommen irgendwelche Ordnungsfanatiker auf die Idee, nach jeder Bearbeitung manuell alle Nummern umzuschreiben, damit das wieder ganz hübsch und säuberlich in Reihenfolge auf der Diskussionsseite erscheint; oder irgendwer begreift es überhaupt nicht und meint, er müsse händisch die Nummern neu vergeben. Damit werden dann wieder nur Fehler in der komplexen Syntax produziert; die Leute sollen einfach nur die gesamte Zeile mit der gefixten URL entfernen (an die Domain wird man sich hoffentlich noch erinnern) und sonst nix.
  • Betiteltes Archivlink mag sein und ist eine Kleinigkeit; ich habe das schon seit einem halben Jahr nicht mehr vor Augen gehabt. Ich weiß nicht einmal mehr, welches von Boshomis Archiven momentan als Titel hinzuschreiben wäre.
  • Archivlink nicht auf gesonderter Zeile ist gefährlich.
    • Das gerade auf einen kurzen Titel reduzierte Archivlink steht dann hinter einer 230 Zeichen langen URL und wird völlig übersehen.
    • Keine Zeilenschinderei auf Kosten der Verständlichkeit und aus Angst, jemand müsse eine Daumenbreite mehr scrollen und könnte daraufhin auf VM gehen.
  • Falls mit „inaktiven/kommentierten Links“ gemeint ist, dass irgendwelche URL in einem Artikel als HTML-Kommentar oder nicht ausgewerteter Vorlagenparameter rumstehen, so ist mir das unendlich egal.
LG --PerfektesChaos 16:39, 20. Nov. 2014 (CET)Beantworten
@PerfektesChaos:: Zwei Punkte:
  • Archivlink auf gesonderter Zeile - da gibt es ein Missverständnis: Aktuell haben wir
http://www.example.org/
* Vielleicht ist eine Version des Webarchivs geeignet:
::http://wayback.archive.org/web/20140710175200/http://www.example.org/ 
* ...
Mein Wunsch wäre:
http://www.example.org/
* Vielleicht ist eine Version des Webarchivs geeignet: [http://wayback.archive.org/web/20140710175200/http://www.example.org/ Klick]
* ...
(gerne mit besserem Linktext) und falls es neben wba nun noch cit gibt, evtl. beide in der gleichen Zeile.
  • Vorlagendarstellung/Anleitung: Hm, Du hast das Modul geschrieben, kennst seine Funktionen am allerbesten - mach doch zumindest mal einen Vorschlag für den Kasten über der Linkliste. Überarbeiten können wir immernoch gemeinsam.--Mabschaaf 00:43, 30. Nov. 2014 (CET)Beantworten

Ich würde in die Kiste statt Vorlage:Defekter Weblink Bot einfach wenige Punkte schreiben:

Im umseitigen Artikel fand ein Bot {{#ifeq:{{{1}}}|1|einen nicht erreichbaren Weblink|{{{1}}} nicht erreichbare Weblinks}}. Sie sind unten aufgelistet.

Wenn ein Weblink kein Problem mehr ist, kann die gesamte Zeile aus der Vorlageneinbindung im Quelltext entfernt werden. Wenn kein Weblink mehr in der Liste enthalten ist, kann auch dieser ganze Abschnitt gelöscht werden.

Solltest du den Eindruck haben, dass diese Meldung hier irtümlich eingefügt wurde und es gar kein Problem mit den Weblinks gab, kannst du das unter Benutzer:{{{2}}}/Defekte Weblinks melden.

Plus alternativ Entfernen-Hinweis, wenn {{{1}}} Null ist; nebst beliebiger Wartungskat.

  • Auf Wikipedia:Defekte Weblinks/Anleitung (WP:DW/A) steht die Schritt-für-Schritt-Anleitung, was Benutzer im Artikel machen sollen und was nicht.
    • Das ist zu einem wesentlichen Teil auch der Inhalt des momentanen Wikipedia:Defekte Weblinks – aber dort stehen weitere Teile wie „schreibe auf Disku“ und „mache einfach Toter Link dran“, was aber für das Fixen eines einzelnen Weblinks egal ist.
    • Zu übernehmen sind die Abschnitte „Alternative Linkziele finden“, „Archivversionen“, „Defekten externen Link aus dem Artikel entfernen?“ sowie komplett (angepasst) „Link-Fixen für Fortgeschrittene“.
    • Hinzu kommen Infos über die neuen Features.
    • Der Passus mit Bot/Bug wird obsolet.
    • Außerdem kann in die /Anleitung noch ein Abschnitt hinein mit Erläuterungen zu der Bot-eingefügten Vorlage, den speziellen Hinweisen, dem Löschen von Einträgen aus der Vorlageneinbindung unter Ignorieren der Parameternummerierung und überhaupt.
    • Auf Wikipedia:Defekte Weblinks steht hinterher nur noch ein Überblick über das manuelle Auffinden und Markieren, und für die Reparatur einer einzelnen URL gibt es eine gesonderte Seite.
  • Damit überspringt die Bot-eingefügte Verlinkung die Oberseite und kommt gleich zur Sache.

Mahlzeit --PerfektesChaos 12:08, 30. Nov. 2014 (CET)Beantworten

Und was die Auflistung der Alternativlinks betrifft:
  • So einfach ist das alles nicht.
  • Es gibt auch noch die Variante, dass zwar nicht die im Artikel stehende URL archiviert ist, wohl aber die URL, die sich ergibt, wenn am Schluss ein Sonderzeichen weggelassen wird.
  • Und das dann mit oder ohne Sonderzeichen in zwei verschiedenen Archiven …
VG --PerfektesChaos 13:22, 30. Nov. 2014 (CET)Beantworten
Und dann gibt es auch noch öffnende Klammern in der URL, die ebenfalls in einem gesonderten Zweig behandelt werden …
  • Ihr habt jetzt so viele Extra-Wünsche geäußert, was man auch noch alles detektieren und unter welchen Archiv-URL man noch alles suchen und finden könnte, dass eure beiden Programmierer das zwar brav alles umgesetzt haben – aber damit habt ihr euch auch unübersichtlich viele Möglichkeiten geschaffen, was alles an Ergebnis und Treffern vorliegen könnte.
  • Ich sehe inzwischen keinen Weg mehr, eure ganzen Wünsche und Treffer bezüglich der URL im Original oder ohne verdächtige Sonderzeichen am Schluss oder bei verdächtiger öffnender eckiger Klammer mittendrin in dem einen oder anderen Archiv oder auch direkt noch irgendwie für die Autoren nachvollziehbar aufzulisten, als wie bislang vorgesehen. So oft ist das nun auch wieder nicht, dass man damit dramatisch Zeilen sparen könnte.
VG --PerfektesChaos 13:56, 30. Nov. 2014 (CET)Beantworten
So, und auf beta.wmflabs.org stehen jetzt auch zusammengefasste betitelte Archivlinks in allen Variationen. VG --PerfektesChaos 01:06, 3. Dez. 2014 (CET)Beantworten
Sehr schön. Wir nähern uns...
Zu Deinem zweiten Punkt oben (Ende mit Satzzeichen/Archive): Klar kann man da unendliche Möglichkeiten ausprobieren und anbieten - sollte oder muss man mM aber nicht. Ich hätte die folgenden Entscheidungen getroffen:
  • Link tot aber Satzzeichen am Ende? Ja: Link ohne Satzzeichen prüfen. Funktioniert der: Nur den, aber keine Archive anbieten. (Bestenfalls das/die Archive mit Satzzeichen)
Irgendwann ist auch mal gut. Nicht alle Probleme können oder müssen von Programmierern gelöst werden. ;-) --Mabschaaf 09:22, 3. Dez. 2014 (CET)Beantworten
  • Ich kam mir bei den ganzen Feature-Wünschen schon irgendwann vor wie bei den Tim-Mälzer-Parodien in switch: „eine Rindsroulade in der Variante für vegane Hindus mit Glutenproblem“.
  • Insgesamt gibt es weniger als 3.000 unerreichbare URL mit Sonderzeichen am Ende; davon vielleicht eine Handvoll mit oder ohne Weglassen des problematischen Zeichens im Archiv. Angesichts 400.000 erwarteter Diskuseiten sollten wir uns auf Massenprobleme und clevere Organisation konzentrieren und uns nicht auf die theoretische Möglichkeit verzetteln, dass ein halbes Dutzend URL vielleicht halbautomatisch unterstützt mit menschlicher Gegenkontrolle gefixt werden könnte, und man dafür ja Extra-Auswertungen und Linkdarstellungen und Algorithmen schreiben könnte.
  • Jetzt ist es so wie von Gifti und mir bereits programmiert und gut ist.
VG --PerfektesChaos 10:27, 3. Dez. 2014 (CET)Beantworten
Bitte die Domain derefer.unbubble.eu (19859 Treffer) im Botlauf ignorieren. Dort werden systematisch nicht erreichbare Links aus den Zitationsvorlagen gesammelt, falls eine Archive-URL angegeben ist. Frohes Schaffen — Boshomi ☕⌨☺  21:40, 8. Mai 2015 (CEST)Beantworten
Giftbot/Weblinksuche findet inzwischen schon über 25000 dieser Links im ANR. Es ist nicht nur die Domain derefer.unbubble.eu zu ignorieren, sondern natürlich auch die URLs die damit umgeleitet wurden: http://derefer.unbubble.eu?u=$URL aber noch an einer anderen Stelle im Artikel auffindbar sind.  Frohes Schaffen — Boshomi ☕⌨☺  18:52, 3. Aug. 2015 (CEST)Beantworten
Das ist bereits der Fall, wenn einer der Parameter archiveurl, archiv-url oder AlteURL angegeben ist. – Giftpflanze 19:20, 3. Aug. 2015 (CEST)Beantworten

Jeder nur ein Kreuz, äh, Edit

Bearbeiten

Wegen der 2013er Anfrage auf WP:Bots nochmal zur Sicherheit:

  • Es darf nur ein Edit pro Disku-Seite geschehen; Eintragung neuer Defekte und gleichzeitig Entfernung aller alten Abschnitte 2006, 2007 usw. bis 2012.
  • Die Autoren drehen sowieso am Rad, wenn über Wochen ein Bot ihre Beos beglückt.
  • 2012 gab das schon allerlei Unmut.
  • Wenn jetzt Zigtausende von Seiten bearbeitet würden, um irgendwas zu entfernen, und im Januar dieselben Seiten nochmal neu befüllt würden, gäbe das einen verständlichen Aufstand.
  • Bei der Gelegenheit nochmal zur Einnerung, auch für DocTaxon: Die Seitenfolge nicht wieder alphabetisch wie 2012, sondern wild durcheinander (pageid sollte wild genug sein), damit nicht erst alle „HMS“-Leute geflutet werden und danach alle „Liste der Dingsdas in“ ihre Beos knicken; mit einem Tageslimit entsprechend einer über mehrere Wochen gestreckten Verteilung.

LG --PerfektesChaos 22:04, 18. Nov. 2014 (CET)Beantworten

Zur Sortierreihenfolge: Ich würde es begrüßen, wenn mit vielbeachteten Seiten begonnen würde (z.B. Sortierung zuerst nach Anzahl der Seitenaufrufe, oder Zahl der Versionen, oder was sonst für Indikatoren für hohes Interesse heranziehbar ist, danach Sortierung nach Page_id). Der Bot sollte auch gemächlich starten und allmählich das Tempo steigern. Grund: Je intensiver ein Artikel gelesen/bearbeitet wird, desto die Wahrscheinlichkeit dass der tote Link angeklickt wird, und desto höher die Chance, dass jemand den Link fixt. Ein toter Link auf einem praktisch unbeachteten Artikel ist zwar im Einzelfall nervig, schadet aber bei Weitem nicht so wie tote Links in hoch-frequentierten Artikeln. Wenn sowas unmöglich wäre, dann eben wie von PC vorgeschlagen nur nach Page_id, wobei ich absteigend begrüßen würde. Dann kämen neuere Artikel zuerst, mit der Chance zu Beginn mehr aktive Autoren anzusprechen. Frohes Schaffen — Boshomi ☕⌨☺23:12, 18. Nov. 2014 (CET)Beantworten
Mir ist alles recht, was nicht alphabetisch oder thematisch sortiert ist. VG --PerfektesChaos 23:31, 18. Nov. 2014 (CET)Beantworten
Könnte der Bot vielleicht mal vorab im Schachbereich laufen, denn uns sind unter P:Schach/Werkstatt die defekten Weblinks so gut wie ausgegangen. Das könnte mal auch als Testlauf ansehen. 85.212.48.122 00:25, 19. Nov. 2014 (CET)Beantworten
Es wird keinen Vorab-Lauf geben, die Testphase findet komplett auf beta statt.--Mabschaaf 08:55, 20. Nov. 2014 (CET)Beantworten
Ich würde die Page_ID in absteigender Reihenfolge nehmen - von den neueren Seiten sind die Autoren mit höherer Wahrscheinlichkeit noch aktiv (und vielleicht sogar gewillt, Fehler zu fixen). Allerdings widerspricht das vermutlich diametral Boshomis Idee, vielbeachtete Seiten zuerst zu nehmen (die sind schon alt, es sei denn es sind Themen "aus den Nachrichten"). Für den gemächlichen Start ist es zumindest für die Anfangsphase wahrscheinlich stressfreier, sich nicht direkt ins ganz große Getümmel zu stürzen.
Was das Fluten der Beos angeht - dazu sollten wir direkt eine detaillierte Anleitung geben, wie die Edits via .css (oder wie immmer) von der Beo ausgeblendet werden können. Evtl. wäre es sinnvoll, dazu einen speziellen Botaccount zu verwenden, nicht den "GiftBot" der ja auch viele andere Aufgaben erledigt.--Mabschaaf 08:55, 20. Nov. 2014 (CET)Beantworten
  • Ausblenden aus der Beo nur für diese Aufgabe ist für Normalbenutzer kaum sinnvoll möglich, nur alle Bots oder keiner oder aber private Konfiguration von listPageOptions.
  • Es gibt hingegen kein CSS, mit dem sich gezielt die ganze Zeile nur eines Bots ausblenden ließe.
  • Mir wäre sehr recht, wenn der Beginn leise und dezent mit geringerer Rate pro Stunde beginnen würde, und sich von Woche zu Woche steigerte.
  • Nachdem sich die Autoren erstmal an die neuen Nachbarn gewöhnt hatten und die Bots ganz ausgeblendet sind, kann Vollgas gegeben werden.
  • Von dem Vorschlag, den Autoren gleich mal die volle Dröhnung zu geben, halte ich wenig. Ich will erstmal weniger beachtete Artikel unterbringen, die kaum großes Aufsehen erregen, und keine Donnerschläge.
  • Die pageid-Folge ist wie ein Knochen: Mit den niedrigsten Nummern wurden in den Kinderjahren Artikel zu London, Paris und Sonne geschrieben (viele basteln bis heute dran rum); nach einer und einigen Millionen wird es exotischer (selten verlinkt, selten gelesen, Fachautoren längst futsch), und bei den neuesten Nummern sitzen die dran, die sie grad vor ein paar Monaten angelegt haben. Wir sind hier bei 8032245 für eine anderthalb Jahre alte Seite (die hübsche Ziffernfolge hatte Mabschaaf natürlich genau abgepasst). Man kann bei einer Million anfangen und die kleinen Nummern zum Schluss nachholen.
  • Es lässt sich ausrechnen, wie viele Beo-Einträge pro Tag bei einem Power-Autor ankommen (sollen).
    • Angenommen, ein Fachautor habe 2000 Artikel im Blick; das ist nach meinen Erfahrungen realistisch, auch wenn ein paar Leute es fünfstellig treiben.
    • Wenn wir am ersten Januar den zweimillionsten Artikel haben, und eine Viertelmillion Artikel hat die Seuche, dann wird jeder achte Artikel besucht.
    • Unser Fachautor bekommt im gesamten Zeitraum 250 Besuche, wenn seine Artikel durchschnittlich betroffen sind.
    • Wenn wir die Aktion über vier Wochen ausdehnen, sind das zehn Beo-Einträge pro Tag. Macht 10.000 edits/Tag, alle acht Sekunden einer. Darf ein Bot so schnell schreiben? Wird es auf acht Wochen gestreckt (das war gefühlt die Dauer in 2012), so muss der Premium-Autor mit 5 Einträgen in 24 Stunden rechnen; oder man schaltet die Bots solange aus. Wer hintereinanderweg zehn Listen mit Kuckucksuhrfabriken angelegt hat und die haben alle dieselbe putte URL, bekommt die dann halt im Klumpen.
LG --PerfektesChaos 17:35, 20. Nov. 2014 (CET)Beantworten
Ein vorsichtiger Start der kaum, bzw. hauptsächlich von Interessierten, bemerkt wird hat sicher seine Vorteile. Google rollt auf solche Weise Änderungen auf seinen wichtigsten Webseiten aus. Das Portal Schach hätte sich hier mal freiwillig gemeldet, und dort sind tatsächlich etliche Leute unterwegs die sich um tote Links kümmern Tsor, hat dort letzte Woche eine dreistellige Zahl an Links gefixt. Die maximale Leistung des Giftbotlaufs war am 6. Oktober mit über 11000 Seiten. Gestartet wurde am 5. August fertig wurde der Bot nach einigen kleineren Unterbrechungen am 9. Oktober.

Leere, aufgeräumte Diskussionsseiten

Bearbeiten

Es gibt einige Seiten, die wurden vom GiftBot angelegt und würden 2015 wieder von ihm geleert, wenn die Links nicht mehr aktuell sind und die Meldung noch von niemandem entfernt wurde. Zur Verringerung der Arbeitsschritte/Beo-Einträge könnte er gleich einen SLA stellen, bzw. mit Doc Taxons Konto sie gleich löschen (ich weiß, Adminbot …). Wäre dies en vogue? – Giftpflanze 19:59, 19. Nov. 2014 (CET)Beantworten

Meine Vermutung wäre, dass das Löschen per Bot durch Doc Taxon ihn ganz schnell das (A) hinter dem Nick kosten würde, selbst ein SLA-Stellen würde von einem Bot vermutlich nicht goutiert werden. Ich sehe daher nur folgende Möglichkeit: Auf der Disku den Alteintrag entfernen (also die Disku leeren). Dann scheint die Seite früher oder später auf einer Wartungsliste auf (z.B. Benutzer:Kulac/leere disks) und wird gelöscht - oder Du bringst Deinem Tool noch bei, solche Fälle direkt auf einer eigenen Wartungsliste zu vermerken. Das ist dann zwar auch eine Zu-Löschen-Liste, diese hätte aber gleichzeitig den Vorteil, dass (vom abarbeitenden Admin) nicht mehr manuell nachgeprüft werden müsste, was auf der Seite los war und ob die Bedingungen zum Löschen erfüllt sind.--Mabschaaf 20:17, 19. Nov. 2014 (CET)Beantworten
Kann man eigenlich Nuke so anpassen, dass damit alle Artikel einer Kategorie gelöscht werden.? Frohes Schaffen — Boshomi ☕⌨☺20:46, 19. Nov. 2014 (CET)Beantworten
Nein. Nuke löscht nur Seiten, die vom gleichen Benutzer (auch IP) angelegt wurden. Aber wie die zu löschenden Seiten hinterher effektiv abgearbeitet werden können, muss uns glaube ich hier nicht weiter beschäftigen. Auf einer Seite gesammelt ist schon komfortabel. --Mabschaaf 20:59, 19. Nov. 2014 (CET)Beantworten
@ Anfang:
Das war seinerzeit strikt abgelehnt worden; AdminBot, du sagst es.
  • Gefordert wurde eine menschliche Kontrolle durch den löschenden Admin, ob nicht zwischendurch wertvolle Diskussionsaktivitäten zwischengerutscht wären.
  • Deshalb gibt es seit einigen Wochen deleteShortpages.
    • Es ermöglicht ein effizientes Löschen kurzer Seiten unter Überwachung der Versionsgeschichte.
  • Es ist momentan auf Benutzer:Kulac/leere disks voreingestellt.
  • Auf BD:Kulac #/leere disks hatte ich vor elf Tagen bereits Vollzug gemeldet; da tat sich aber noch nichts.
  • @Mabschaaf, @DocTaxon: Ihr könnt das ja mal installieren und an Benutzer:Kulac/leere disks ausprobieren; das sind momentan vorneweg aus anderen (nicht Giftbot) Gründen leere Seiten.
    • Ab Diskussion:Alabel gehen Kandidaten los (bis davor die Zeilen im Bearbeitungsfeld löschen, ohne zu speichern, danach Tool starten). Ein paar Nieten; Diskussion:Alarmsignal (Band) ist wieder Bot-Kandidat, dann kommen allmählich noch mehr. Diskussion:Albersdorf-Prebuch sogar von 2008.
    • Das Teil ist nagelneu und nur an drei Seiten erprobt; bitte auch Logbuch prüfen. Keine Gewähr auf nix!
LG --PerfektesChaos 21:11, 19. Nov. 2014 (CET)Beantworten
Naja, die Versionsgeschichte kann man ja auch per API/Datenbank/Bot prüfen, sogar viel besser und fehlerfreier. Und verwaiste Benutzerdiskussionsseiten sollen nach Hörensagen ja auch automatisch gelöscht werden. Aber mir ists letztlich egal. Ich leer die auch einfach, muss ich nix weiter programmieren. — Giftpflanze 22:23, 19. Nov. 2014 (CET)Beantworten
Das ist eine Prüfung per API. LG --PerfektesChaos 22:30, 19. Nov. 2014 (CET)Beantworten
Ja, aber mit menschlicher Kontrolle. — Giftpflanze 23:20, 19. Nov. 2014 (CET)Beantworten

Laufkennung

Bearbeiten

Mal ne blöde Frage: Für Läufe nach dem nächsten großen Lauf: Wenn sich nichts geändert hat (also keine neuen toten Links gemeldet werden oder erledigte Links noch nicht deaktiviert/entfernt wurden), soll dann trotzdem die Kennung erneuert werden (und ggf. inaktive Zeilen rausgelöscht)? Das hätte den Vorteil, dass man obsolete Meldungen ganz schnell erkennen könnte (tragen nicht die Kennung des letzten Laufes), aber das kann man auch anders lösen. – Giftpflanze 18:14, 24. Nov. 2014 (CET)Beantworten

Keine blöde Frage, aber klare Antwort: Das ist wie eine Signatur, und ein Frischestempel. Mit dem Datum/Jahr 20xx wird bestätigt, dass 20xx die und die Situation erkannt wurde, und nicht die damals von 2015, anno Tobak.
Zukünftig soll es ja auch so sein (weiterhin Diskussionsseiten vorausgesetzt), dass mit dem Folgelauf sich alle nicht ersetzten Kästen mit dem Datum von einem alten Lauf schlagartig klein und RESOLVED schalten werden und ihre URL verbergen, und nur Kästen vom frischesten Lauf sichtbar sind und URLs zeigen.
Außerdem würde das Jahr des ersten gefundenen Abrufversagens in den Eintrag der jeweiligen URL eingehen; daran wäre also erkennbar, dass diese URL jetzt schon drei Jahre hi ist.
LG --PerfektesChaos 22:25, 24. Nov. 2014 (CET)Beantworten
OK, das heißt dann aber, dass sowas nur einmal jedes Jahr aktualisiert wird und nicht alle zwei Wochen, so wie es mir vorschwebte? — Giftpflanze 23:13, 24. Nov. 2014 (CET)Beantworten
Ein regelmäßiger Lauf wäre schon begrüßenswert, wobei ich eine monatliche Neuüberprüfung schon als schnell genug empfinden würde. In dem Fall sollte man wohl besser auf eine 6-stellige Kennung (yyyymm) verwenden. Bei einem regelmäßigen Lauf würde sowas auch sehr nützlich für das Auffinden passender Mementos sein, da man auf diese Weise das Offline-gehen der Original-URL recht gut eingrenzen könnte. Frohes Schaffen — Boshomi ☕⌨☺23:51, 24. Nov. 2014 (CET)Beantworten
  • Die Laufkennung mag auch täglich arbeiten, wenn alle Artikel durchlaufen wurden; muss man halt nur ISO-Datum nehmen und festlegen, ab wieviel Tagen zurück eine Kiste als veraltet gelten soll.
  • Aber die Autoren werden euch beiden die Ohren langziehen und verknoten, wenn ihr alle zwei Wochen oder auch nur vierteljährlich die Beos vollrotzt, nur weil sich irgendwo mal was an einer URL geändert hat.
  • Es sind noch über 100.000 Seiten mit mutmaßlich defekten Weblinks aus 2012 übrig (wobei gut 100.000 eine tolle Leistung sind: also die Hälfte nach zwei Jahren).
    • Solange die 250.000 Diskuseiten vom Lauf Anfang Januar 2015 nicht annähernd abgearbeitet sind, ist es völlig sinnlos, nochmal alle paar Wochen daran rumzumachen und schneller die Diskuseiten vom Bot zu editieren als Menschen mit dem Fixen hinterherkommen.
  • Kurzum: Das System „Diskuseite“ verträgt keine häufigere Belästigung als einmal jährlich.
    • Ein Alternativkonzept hatte ich mal umrissen: Eine Datenbank auf Labs/Tools, die für alle Wikis gemeinschaftlich URL und deren zeitliche Nichtverfügbarkeit registriert und die fraglichen URL den EL von Artikeln entnimmt und beantwortet, welche URL jetzt gerade schon wie lange unerreichbar sind und welche jetzt geantwortet haben. Aber das ist eine völlig andere Geschichte.
LG --PerfektesChaos 01:07, 25. Nov. 2014 (CET)Beantworten
Ich finde die Idee, einen EL-check häufiger durchzuführen schon spannend: Wie rotten ist das Web da draußen eigentlich? Mit wie vielen neuen toten Links wäre alle zwei Wochen zu rechnen?
Der Effekt des "Beo vollrotzens" tritt ja eher dann ein, wenn das Ganze diskontinuierlich läuft: je größer die Abstände, desto schlimmer.
Das Auffinden von Ersatzlinks ist einfacher, wenn die Meldung zeitnah erfolgte, eine verlässliche Meldung auf der Disku (sprich: alles, was dort als gemeldet steht, steht tatsächlich auch noch im Artikel) ist auch viel wert.
Kurz und knapp: 1x pro Jahr erscheint mir zu selten, 1x pro 14 Tage zu häufig. Ist aber jetzt auch noch nicht entscheidend, wie die Frequenz letztlich aussieht: Das Format zumindest auf yyyymm zu erweitern schadet mM nicht und ist zukunftsweisend. Nach 201501 könnte ja auch 201512 folgen - für Leute, die dann aus ganz anderen Gründen "Oh Du Fröhliche" seufzen mögen ;-) --Mabschaaf 08:42, 25. Nov. 2014 (CET)Beantworten
Wenn einmal der Lauf durch alle Artikel durch ist, wären die Zahl der Bot-Edits selbst bei einem täglichen Lauf überschaubar, da ja nur neu hinzukommende defekte URLs Edits auslösen müssen, und ein gelegentliches Wegräumen gefixter Links würde von den meisten Usern sowieso eher als Service empfunden. Das Problem mit den überfüllten Beos sollte spätestens aber dem Tag erledigt sein, wenn der Bot die kontinuierliche Arbeit aufnimmt, egal ob täglich, wöchentlich oder monatlich. Frohes Schaffen — Boshomi ☕⌨☺20:30, 25. Nov. 2014 (CET)Beantworten
Zitat aus WP:DWL: Bevor externe Links von Bots gemeldet werden können, müssen die Zielseiten dreimal (besser viermal) im Abstand von jeweils zwei Wochen nicht erreichbar gewesen sein. - Demnach wäre doch ein Abstand von zwei Wochen praktisch vorgegeben.--Mabschaaf 00:31, 30. Nov. 2014 (CET)Beantworten
Grundsätzlich schließt ein vollkommen kontinuierlicher Prozess, das Einhalten derartiger Regelungen nicht aus, erleichter sogar das genaue Einhalten. Frohes Schaffen — Boshomi ☕⌨☺14:06, 30. Nov. 2014 (CET)Beantworten
Gegen einen „vollkommen kontinuierlichen Prozess“ spricht, dass er bei der momentanen und veraltenden Diskussionsseiten-Methode mit Belästigung auf den Autoren-Beos einhergeht.
Solange es an genügend anderen Stellen unbearbeitete DWL gibt, ist es sinnfrei, automatisiert immer wieder neue aktualisierte Versionen in die Disku zu drücken, ohne dass irgendein Mensch die Chance hatte, die zwischenzeitlich mal anzufassen.
Genau solch rücksichtsloses Verhalten gegenüber den beteiligten Autoren sorgt immer wieder für vermeidbaren und nachvollziehbaren Zoff.
Man könnte sogar argumentieren, dass überhaupt kein neuer Lauf gemacht werden dürfe, weil von Mitte 2012 noch über 100.000 zumindest nicht restos abgearbeitete Artikel übrig wären. Dem lässt sich allerdings entgegenhalten, dass nach zweieinhalb Jahren das Vorhandensein im Artikel und die Erreichbarkeit sich deutlich verändert haben könnte.
Die Artikel und ihre Diskussionsseiten sind keine Spielwiese zur Erbauung von Wartungspersonal, und die Wartungsabteilung ist eine andere Methodik zur Verbesserung der Artikelqualität in einer etwas nachrangigeren Frage (funktioniert ein Link noch) als die enzyklopädische Aussage – die und die Autoren stehen im Mittelpunkt.
VG --PerfektesChaos 14:43, 30. Nov. 2014 (CET)Beantworten
Es stimmt schon, dass eine tote URL nicht unbedingt am ersten Tag auf der Diskseite gemeldet werden muss. Was ich unter kontinuierlichen Prozess meinte, ist dass der täglich Bot z.b. nach page_id modulus 182 die Seiten durchläuft. Für einen vollständigen Lauf würde der Bot dann ein halbes Jahr brauchen, und man könnte auch weit im Voraus abschätzen, wann der Bot vorbeikommt. Da dabei nur neu hinzukommende tote Links Botedits auslösen würde, wären das 300-350 Botedits pro Tag. Ich schätze die Schwelle, ab der der Bot relevant bemerkt wird, bei etwa 1000 Edits pro Tag. Aber vielleicht finden wir auch andere Möglichkeiten die Prozesse auf kontinuierlichere Basis zu stellen, etwa wenn benutzerin:Giftpflanze ein Tool analog zu giftbot/weblinksuche zur Verfügung stellen würde. Bei Moduls 182 hätten dann Benutzer die auf das Tool schauen im Schnitt ein Quartal lang Zeit die Links zu fixen, bevor der Bot eine Meldung macht. Ein Modulus-Verfahren das auf die page_id angewandt wird, garantiert auch eine gleichmäßige fast zufällige Auswahl der Artikel. Frohes Schaffen — Boshomi ☕⌨☺  16:28, 25. Okt. 2015 (CET)Beantworten
Bearbeiten

@Giftpflanze: Hast Du eigentlich schon eine "Standard-Operating-Procedure", wenn Du häufig[Was das heißt, wäre noch zu definieren] verwendete Links plötzlich defekt findest? Mal angenommen, http://www.ich-bin-hin.de/404.htm steht auf 100 Seiten - dann ist es nicht sinnvoll, diese Meldung sofort auf 100 Diskus zu verteilen (soweit waren wir ja schon mal einig). Aber was geschieht mit der Adresse?

Mein Vorschlag wäre: Auf eine noch zu definierende Seite schreiben (bspw. irgendwo in der WP:WLW-Welt) und eine Frist einräumen binnen der die Links gefixt sein müssen - dann ist alles fein. Falls nicht, werden sie doch verteilt.

Wenn das Vorgehen prinzipiell ok ist, müssten wir uns noch auf die Eckdaten verständigen: Mein Vorschlag: 25x die gleiche URL oder 25x die gleiche Domain; Frist: 30 Tage. Seite: hmmm... @Boshomi:??--Mabschaaf 23:14, 26. Nov. 2014 (CET)Beantworten

Das halte ich für einen brauchbaren Vorschlag. Ich arbeite derzeit beispielsweise die Seite sportsillustrated.cnn.com ab. Die Seite erstellte ich mit Hilfe von Giftbot/Weblinksuche und WikEd-Regexp, als auf recht primitiver Basis, die jeder nachmachen kann. Wenn sich für solche Seiten eine einheitliche Lösung ergibt, würde ich das auf gleiche Weise erstellen und nach Wikipedia:WikiProjekt Weblinkwartung/Botliste kopieren. 30 Tage wird vermutlich zu knapp. Und als Gruppierungskirterium sollte mindestens der Pfad gleich sein: example.org/immer/der/gleiche/pfad/variable-datei.sfx oder es unterscheidet sich die Query example.org/immer/der/gleiche/pfad/query?key1=y&key2=z... Frohes Schaffen — Boshomi ☕⌨☺23:53, 26. Nov. 2014 (CET)Beantworten
Ich hätte gern, dass die Seite mit der Auflistung von Domains und Seitennamen gleich in Labs/Tools bleibt, als plain.txt; zur Kenntnisnahme dort, und nur ggf. Koordination und Abarbeitungsinfos hier.
Das kann extrem lang werden, zumal 25 gleiche URL über eine aktualisierungsbedürftige Vorlage sehr schnell hinzubekommen sind. Und 25 gleiche Domains dürften dieses System zum Platzen bringen, weil alle 500er, die in ein paar Artikeln vorkommen, dann dort aufschlagen; ich glaube, es gibt 20.000 und mehr kaputte URL auf irgendein billboard.com mit 404.
Die Länge der hier beabsichtigten Seite wird bei mehreren MB liegen; nur plain text, in HTML und Wikitext noch länger. Mehr als 2 MB HTML verweigert der Wiki-Server allerdings, und Bearbeitungsfeld ist auch nicht mehr.
Einmal generieren und als txt zum Download bereitstellen, und dann kann sich das jeder auf der Festplatte in seinen Editor holen und sich amüsieren und filtern.
LG --PerfektesChaos 23:33, 26. Nov. 2014 (CET)Beantworten
Hm, die Zahlen aus 2012 sprechen eine andere Sprache: Benutzer:BeriBot/TopToteLinks listet alle toten Domains mit >50 Verwendungen. Das ist überschaubar.
Gerade die sehr häufig verwendeten Full-URLs kommen natürlich von Vorlagen - umso weniger Sinn macht es, die auf Diskus breit zu streuen. Da sollen sich Spezialisten kümmern. Leider habe ich da keine Statistik aus 2012 zur Hand.--Mabschaaf 23:42, 26. Nov. 2014 (CET)Beantworten
Käme darauf an, wie detailliert du die einzelnen Links aufgelistet haben möchtest.
Wenn du dich darauf beschränkst, nur die Domains wissen zu wollen, geht es kürzer wie a.a.O.
Die Maximalzahl gleicher kaputter URL lag bei 150–200 Seiten.
LG --PerfektesChaos 00:46, 27. Nov. 2014 (CET)Beantworten
Es ist sowieso geplant, vor dem Lauf eine Liste mit den 1000 häufigsten Domains zu erstellen. Zusätzlich/Stattdessen kann ich ja noch eine Liste mit 25+fach defekten Domains machen. Der Lauf würde dann starten, wenn diese Liste abgearbeitet oder entschieden wäre, welche Domains von der Verteilung ausgeschlossen werden sollen. Oder man schließt sie gleich alle aus (wenn es vollautomatisch laufen sollte). Aber ich glaube, die erste Variante ist da besser. – Giftpflanze 00:24, 27. Nov. 2014 (CET)Beantworten
Service: [[5]] vom letzten Dump, beim nächsten Dump mach ich das auch mit gleichen Pfaden, vermutlich gruppiert ab 70 Stück. Frohes Schaffen — Boshomi ☕⌨☺00:37, 27. Nov. 2014 (CET)Beantworten
Naja, die sind ja nicht alle putt. Okay, billboard.com hat nur 6000, aber dabei weitaus überwiegend mit geändertem URL-Schema und noch nicht gefixt. Aber welche davon funktionieren und welche nicht?
@Giftpflanze:
  • Diese beiden Listen müssten aufeinander fallen; d. h. in der Liste der 1000 häufigsten Domains sind auch die mit einer Mehrfachheit von 25 enthalten. Und wenn die geschickt mitsamt Frequenz gelistet werden, würde sich diese Frage von selbst beantworten.
  • Nach dem Stichtag, bis zu dem Vorabbereinigung möglich war, muss ja ein erneuter Lauf über alle Artikel erfolgen, um herauszufinden, welche inzwischen in welchen Artikeln nicht mehr vorhanden sind; und dabei eigentlich auch, ob zu diesem mittlerweile fünf Wochen späteren Zeitpunkt vielleicht einige wieder live sind.
LG --PerfektesChaos 00:46, 27. Nov. 2014 (CET)Beantworten
Ein Liste häufig verwendeter Pfade habe ich jetzt unter Wikipedia:WikiProjekt_Weblinkwartung/Domains_im_Fokus/ANR_mehr_als_70_Links_pro_Pfad angelegt. Auf Query habe ich keine Rücksicht genommen, da es nur wenig gebracht hätte, und so das Regexp zur Gruppierung viel einfacher blieb.  Frohes Schaffen — Boshomi ☕⌨☺21:34, 30. Nov. 2014 (CET)Beantworten

Protokoll

Bearbeiten

Ich möchte nicht die Diskussion zum Thema protokollrelative Links aufwärmen, aber wäre es vielleicht sinnvoll, bei toten Links zu checken, ob sie ggf. mit abweichendem Protokoll erreichbar sind (http tot -> check auf https und vice versa)? --Mabschaaf 22:01, 10. Aug. 2015 (CEST)Beantworten

Kreisch! Wenn ich daran denke, das auch noch implementieren zu müssen. (Naja, ist wohl halb so schlimm.) Mal schauen was PC und andere so meinen. – Giftpflanze 22:03, 10. Aug. 2015 (CEST)Beantworten
:-D Von PC erwarte ich eine ähnliche Reaktion... Der weilt aber wohl gerade im Urlaub. Bei einer positiven Entscheidung müsste er ja auch sein LUA-Modul noch erweitern.--Mabschaaf 22:05, 10. Aug. 2015 (CEST)Beantworten
lol – Giftpflanze 22:07, 10. Aug. 2015 (CEST)Beantworten
Aber schön, dass wir drüber gesprochen haben.--Mabschaaf 22:09, 10. Aug. 2015 (CEST)Beantworten
Das müsste GiftBot an den Antworten des Servers merken, der umleitet oder Zertifizierungsfragen beanstandet.
Ob sie im Artikel protokollrelativ stehen, ist für den GiftBot nicht zu ermitteln; sie werden alle als https gemeldet. Wenn das http sein soll, gibt es wohl einen Fehlercode. Irgendwie weiß ich aber grad nicht welcher. Mal mit https://de.wikipedia.beta.wmflabs.org/ ausprobieren.
Benutztes http bei erforderlichem https führt entweder zum Fehlercode 403, oder der Server leitet um wie bei uns.
LG --PerfektesChaos 22:18, 10. Aug. 2015 (CEST)Beantworten
Öh, nein, protokollrelative Links kommen bei mir als //… an, ich setze dann ein http: davor. – Giftpflanze 22:22, 10. Aug. 2015 (CEST)Beantworten
Inzwischen bekommen fast alle Benutzer https geliefert, wenn ein //… im Quelltext steht. Man sollte daher eher https prüfen, und falls das nicht funktioniert explizit http empfehlen wenn dort ein Code 200 geliefert wird. Überlegenswert wäre auch eine Liste von fragwürdigen Zertifikaten zu erstellen, bzw. von einschlägigen erfahrenen Institutionen zu beziehen, und entsprechende Treffer anzuzeigen. Schlechte Zertifikate korrelieren mit ungeeigneten Quellen. Frohes Schaffen — Boshomi ☕⌨☺  22:40, 10. Aug. 2015 (CEST)Beantworten

@G: Na fein, wenn du // in den EL siehst; diese müssen immer mit https ergänzt werden, weil niemand mehr eine WP in http sehen kann. LG --PerfektesChaos 22:57, 10. Aug. 2015 (CEST)Beantworten

Uh, na dann. (verschiebt alles zwei Wochen nach hinten, aber das macht ja nix) – Giftpflanze 23:02, 10. Aug. 2015 (CEST)Beantworten
Könnte allerdings sein, dass wir ein Flag/paar einführen, das besagt: „Einfach nur das Protokoll ändern, Rest bleibt gleich.“
Dazu muss aber der GiftBot die Situation überhaupt detektieren können, und die Server müssen in einer auswertbaren Form antworten.
Völlige Illusion ist hingegen die Bewertung von Zertifikaten. Deren Analyse ist nicht mit einer banalen Liste getan, sondern eine hochkomplexe Angelegenheit. Da käme mehr Müll raus als dass es verlässliche Treffer brächte. Die Benutzer hatten ja mal eine URL reingeschrieben, die zum damaligen Zeitpunkt funktionierte. Und bis auf CAcert sind da keine Überraschungen zu erwarten. Schlechte Zertifikate korrelieren nicht mit ungeeigneten Quellen, sondern mit Geldmangel der veröffentlichenden Institution, und das zu bewerten und dann umzusetzen bringt kein Wikipedianer als Autor und aufgrund der generierten Abarbeitungshinweise zustande.
--PerfektesChaos 00:06, 11. Aug. 2015 (CEST)Beantworten
Hab das mal implementiert (wenn defekt, dann ggf. http↔https tauschen, nochmal prüfen). Mal gucken, was das zu Tage fördert. Als Flag schlage ich proto vor. – Giftpflanze 13:22, 11. Aug. 2015 (CEST)Beantworten
@PerfektesChaos: Kannst du das bitte noch umsetzen? – Giftpflanze 23:13, 10. Okt. 2015 (CEST)Beantworten
Ja, klar.
Ich habe inzwischen alles vergessen und muss mich erstmal wieder komplett neu einarbeiten; sowohl in das Lua-Modul wie auch das zugehörige JS-Gadget. Dafür brauche ich eine Woche.
Deshalb habe ich alle offenen Punkte nur notiert und die Abarbeitung gebündelt auf die einmalige Aktion kurz vor Start verschoben. Meine aufgelaufenen Notizen muss ich jetzt auch erstmal suchen.
LG --PerfektesChaos 11:57, 11. Okt. 2015 (CEST)Beantworten
Eingebaut. LG --PerfektesChaos 18:13, 18. Okt. 2015 (CEST)Beantworten

Jetzt gehts los!

Bearbeiten

Wann gehts denn endlich los? Oben stand was von Januar/Februar, damit war wohl nicht 2015 gemeint? 85.212.11.54 17:53, 11. Aug. 2015 (CEST)Beantworten

Nein, damit war vermutlich 2014 gemeint ;-) Nach Giftpflanzes letzter Meldung könnte es wohl in ca. 2 Monaten losgehen. Aber sicherheitshalber solltest Du Dir das vielleicht schon jetzt auf Deinen Weihnachtswunschzettel schreiben... (für welches Jahr, habe ich absichtlich weggelassen).--Mabschaaf 18:00, 11. Aug. 2015 (CEST)Beantworten
(BK) Na, du weißt doch, es ist fertig, wenn es fertig ist. Wenn jetzt von technischer/planerischer Seite nichts mehr dazwischenkommt, ist die Überprüfung am 18. Oktober fertig. Wenn dann die weiteren Dokumentations- und Kommunikationsschritte abgeschlossen sind, kann verteilt werden. – Giftpflanze 18:01, 11. Aug. 2015 (CEST)Beantworten

Die letzten drei Läufe verliefen soweit zufriedenstellend, der Bot wäre so um den 8. November bereit. Aber es fehlen noch:

  • die Vorlage in dewiki (die ist wohl schnell rüberkopiert)
  • die dazugehörige Benutzerdokumentation/Anleitung (evtl. müssen noch weitere Seite angepasst werden?)
  • ein Kurier-Artikel
  • eine Notice

Giftpflanze 21:46, 10. Okt. 2015 (CEST)Beantworten

Könntest Du mal (mindestens) einen Artikel ins beta-Wiki kopieren und dort die zugehörige Meldung auf die Disku schreiben? Idealerweise ein Artikel mit sehr vielen defekten Links? --Mabschaaf 22:19, 10. Okt. 2015 (CEST)Beantworten
[6]Giftpflanze 23:16, 10. Okt. 2015 (CEST)Beantworten
Ist es korrekt, dass es keine Links auf das Webarchiv mehr gibt?--Mabschaaf 23:23, 10. Okt. 2015 (CEST)Beantworten
Da das alles nur vorläufig ist, habe ich die Abfrage des Archives noch nicht durchgeführt. Ich kann das aber für diesen Artikel machen. – Giftpflanze 23:31, 10. Okt. 2015 (CEST)Beantworten

Disku-Meldung: Änderungswünsche

Bearbeiten

Ich würde folgende Punkte noch als verbesserungsbedürftig ansehen:

  • Der Anker hat einen falschen Zeitstempel
  • Auch der Parameter Lauf= ist falsch befüllt
  • Das korrekte Auffinden eines gemeldeten Links im Quelltext ist gerade bei so langen Listen wie im Beispiel [7] sehr schwierig. Sollten wir die in der Vorlage/im Quelltext vorhandene Nummerierung auch im sichtbaren Text zeigen?
  • Text Vielleicht ist eine archivierte Version geeignet ersetzen durch Archvierte Versionen sind verfügbar unter
  • Text Im Jahr 2012 bereits defekt gewesen. ersetzen durch Weblink ist mindestens seit 2012 defekt.
  • Text Artikel mit gleicher URL ersetzen durch Weitere Artikel, die diesen defekten Link enthalten
    • Bleiben hier eigentlich die Nummern oder werden diese durch Klar-Lemma ersetzt?
    • Warum werden im beta-Wiki die meisten als "nicht gefunden" bezeichnet, einige aber nicht (die ihrerseits aber auch nicht vorhanden sind)?
  • Netzwerk-Fehler (6) ist völlig unverständlich
  • Problem mit Ressource (HTTP-Statuscode 403) ist auch Nerd-Speek. Kann man das allgemeinverständlich formulieren?
  • Zur optischen Abgrenzung der einzelnen Links voneinander würde ich alles, was doppelt eingerückt ist (also alle Hinweise) in small-Tags setzen.
  • Wir brauchen eine allgemeine Landing Page für Fragen/Fehlermeldungen/Wünsche/Anmerkungen. Wo sollte die sein? Im Bereich WP:WLW? (Ping an Benutzer:Boshomi)
  • tbc--Mabschaaf 12:33, 11. Okt. 2015 (CEST)Beantworten
Der Anker/Lauf ist von der Vorlage hardcodiert vorbestimmt. – Giftpflanze 12:39, 11. Okt. 2015 (CEST)Beantworten
Teilantworten vorneweg:
  • Lauf= kann erst dann gesetzt werden, wenn mal der endgültige Nennwert (einheitlicher Stichmonat 2015) bekannt ist; so auch der dann davon abgeleitete Zeitstempel.
    • Aber gut, dass du (den Bot) daran erinnert hast.
    • „Der Anker/Lauf ist von der Vorlage hardcodiert vorbestimmt“ – nein, den Wert kennt nur der Bot und schreibt ihnin die Einbindung; identischer Wert für den gesamten Spätherbst 2015.
  • „Sollten wir die in der Vorlage/im Quelltext vorhandene Nummerierung auch im sichtbaren Text zeigen?“ Das Gadget macht genau sowas und blendet die durchnummerierten wirksamen Einträge optisch im Artikel ein und verlinkt sie; der Bot fasst den Artikel nicht an und weder ein Bot noch das Gadget verändern was am Quelltext des Artiels.
    • Ah, war wohl anders gemeint und schonmal diskutiert worden: Nein, völlig verwirrend und Schall und Rauch; weil dann seltsamerweise nach einigen Abarbeitungen aufgezählt würde 1, 2, 3, 5, 9, 10, 11 und das kapiert dann auch wieder keiner. Außerdem stehen da schon viel zuviele Zahlen und Daten. Wenn jemand den Überblick verliert, empfehle ich die Textsuche nach der URL.
  • small machen wir hier grundsätzlich nicht, weil viele Benutzer nicht so gute Augen haben.
  • Formulierungen: Muss ich mir in Ruhe anschauen; wenn keine Kollisionen mit anderen Kontexten, dann ändere ich.
    • Im Jahr 2012 bereits defekt gewesen. und Weblink ist mindestens seit 2012 defekt. sind zwei unterschiedliche Aussagen; Letzteres bringt eine Spekulation ein, was 2013 und 2014 gewesen sein mag.
    • Die Formulierung Vielleicht ist eine archivierte Version geeignet ist ganz bewusst so gewählt entsprechend gemachter Erfahrungen; während Archvierte Versionen sind verfügbar unter schon gleich unterstellt, alles wäre geeignet und könne ohne großes Nachdenken übernommen werden.
    • Die Nummern werden bei einem (oder so) durch den Linktitel ersetzt, bei einer Liste (wohl ab 2) bleibt es bei Nummern, weil sonst bei 70 Nummern und „Liste der karierten Maiglöckchen im bayerischen Landkreis …“ die Klarlemma-Aufzählung überkocht.
    • Allgemein bist du deutlich wortreicher als ich. Es muss sowohl verständlich wie auch kurz und knapp sein.
  • WP:DWL ist die zuständige Projektseite für alle Benutzer und damit auch die Landing Page.
LG --PerfektesChaos 13:00, 11. Okt. 2015 (CEST)Beantworten
Vorgegeben im Sinne von: ansonsten wird das gar nicht richtig angezeigt (war zumindest mal so). – Giftpflanze 13:03, 11. Okt. 2015 (CEST)Beantworten
Der Bot schreibt die Laufkennung (Anker) in die Disku, also wohl 2015-10.
Nachdem man mir gesagt hat, wie denn nun die Kennung des aktuellen Laufs aussieht, habe ich die Mögichkeit, alle nicht-aktuellen Einbindungen (von denen es aber zurzeit null mit der neuen Technik gibt) weitgehend auszublenden; das ist dann also erst für die Situation bei einem zukünftigen Lauf wichtig.
LG --PerfektesChaos 13:09, 11. Okt. 2015 (CEST)Beantworten
zu "small machen wir hier grundsätzlich nicht" - Welche Mehrheit versteckt sich hinter "Wir"? Pluralis majestatis? ;-) Ich biete mal einen Kompromiss: Die Hinweise bekommen eine eigene HTML-Klasse, dann kann das jeder nach Gusto selbst bestimmen.--Mabschaaf 16:59, 11. Okt. 2015 (CEST)Beantworten
H:TG, schon im Januar 2006 – nicht jeder kann das dann noch lesen. Mich gab es aber erst später 2006, ich habe da nicht dran gefummelt.
CSS-Klasse für Adleräugige wär okay; habe ich mir vorgemerkt.
VG --PerfektesChaos 17:25, 11. Okt. 2015 (CEST)Beantworten
H:TG ist aber nur für den ANR gültig. Egal, mit einer CSS-Klasse kann ich prima leben. Ich halte es übrigens für sinnvoll, den kompletten Abschnitt per CSS ausblendbar zu machen, dann können alle, die keine defekten Weblinks mehr sehen können, sich die Welt schön machen.--Mabschaaf 22:40, 11. Okt. 2015 (CEST)Beantworten
Es gibt jetzt class="deadlink-bot" für die generierte URL-Liste.
  • Für die Bedienungsanleitung müsste sie dort in der (neuen) Vorlage definiert werden.
  • Von deren Textsequenzen müsste soviel von der Beschreibung stehenbleiben, dass die Überschrift nicht völlig nackt bleibt.
Dass in Vector die Einzelnachweise in allen Namensräumen nicht verkleinert werden, liegt daran, dass diverse Menschen nicht gut gucken können, und das bei Artikeln mit gleicher Sehschärfe wie auf der zugehörigen Diskussionsseite.
LG --PerfektesChaos 18:36, 18. Okt. 2015 (CEST)Beantworten

Die technischen Spezialitäten wären auf der Projektseite zu erläutern. Die generierte Liste kann nur im Telegrammstil den Fehler beschreiben. Jemand, der sich mit Weblinktechnik auskennt, kann mit den Details etwas anfangen, alle anderen sollen es ignorieren. Manchen helfen die Zusatzinfos, und sie waren ausdrücklich gewünscht gewesen; wer damit nichts anfangen kann, mag darüber hinwegsehen. LG --PerfektesChaos 18:41, 18. Okt. 2015 (CEST)Beantworten

Lauf-Kennung

Bearbeiten

Die amtliche Kennung habe ich nunmehr auf 2015-10 festgelegt. Alle Diskussionsseiten mit anderer Laufkennung und neuer Vorlagentechnik melden ihr 2014-02 nunmehr als veraltet. LG --PerfektesChaos 18:36, 18. Okt. 2015 (CEST)Beantworten

Landing Page

Bearbeiten

Machen wir mal einen Unterpunkt auf, sonst wird es oben schnell unübersichtlich

Wir werden uns dem Problem stellen müssen, dass eine ganze Weile zwei unterschiedliche Meldungen auf den Diskus koexistieren werden, die aus dem 2012er Lauf und die aktuellen. WP:DWL gibt technische Hilfestellung und muss den Unterschieden zwischen beiden Läufen gerecht werden. Alle Fragen zu einzelnen Seiten/Links sollten aber mM nicht auf Wikipedia Diskussion:DWL landen, sondern igendwo im WP:WLW-Universum. Daher sollten im Kopf mM beide Linkziele genannt werden.--Mabschaaf 13:14, 11. Okt. 2015 (CEST)Beantworten

Nein; in dem Moment, in dem der jetzige Herbstlauf aktuell ist, werden sämtlich 2012er-Einbindungen inaktiv und unsichtbar. Sie sollen ja auch bei gleichzeitigem Besuch der Disku vom Bot eliminiert werden; die noch offenen URL werden in die neue Einbindung integriert.
Insofern ist WP:DWL diejenige Seite, die zentral für jeden Benutzer und Autor die Anleitung gibt.
WP:WLW ist eine private Angelegenheit und eine interne Koordination der Mitarbeiter, in welcher Weise dort die Arbeit koordiniert wird und wie dort interne Wartungslisten verwaltet werden. So ist das bei allen Wikiprojekten.
LG --PerfektesChaos 13:38, 11. Okt. 2015 (CEST)Beantworten
Nein, es werden eben nicht sämliche 2012-Einbindungen unsichtbar. Gifti kann nur abräumen, was seit 2012 unverändert dasteht (oder ausschließlich verkürzt wurde). Jeder ergänzte oder kommentierte Abschnitt wird noch auf Monate oder Jahre dort stehen.--Mabschaaf 16:59, 11. Okt. 2015 (CEST)Beantworten
Nein; es werden Ende Oktober 2015 alle 2012er Einbindungen der Vorlage durch ungefähr folgenden Text ersetzt:
An dieser Stelle stehen oder standen Meldungen über defekte Weblinks aus dem Jahr 2012.
Bitte entferne diese Vorlageneinbindung und diesen Abschnitt zunächst nicht; sie wird ggf. vom zurzeit tätigen Bot noch ausgewertet und erst dann vom Bot selbst entfernt.
Und irgendwann 2016 erscheint statt dessen der folgende Text:
An dieser Stelle stehen oder standen Meldungen über defekte Weblinks aus dem Jahr 2012.
Alle damals aufgelisteten Weblinks wurden inzwischen korrigiert oder anderweitig aus dem Artikel entfernt.
Du kannst diesen Abschnitt oder diese Vorlageneinbindung jetzt aus der Diskussionsseite löschen, sofern nicht menschliche Benutzer inhaltliche Beiträge hinzugefügt haben.
Du verwechselst die Vorlageneinbindung mit dem sichtbaren Text.
Leider kann ich die darunter stehenden Weblinks dieses Mal noch nicht gleich unsichtbar und unwirksam machen, da sie damals noch nicht in die umschließende Vorlageneinbindung integriert waren. Nach dem nächsten Lauf kann aber auch die Liste der URL unsichtbar und nichtexistent geschaltet werden, sobald die Laufkennung nicht mehr aktuell ist.
Da die Hilfestellung von 2012 aber Ende des Monats nicht mehr sichtbar sein wird, somit auch nicht die Verlinkungen, auf die verwiesen wird, kann gleichzeitig der Text auf WP:DWL Ende des Monats den neuen Stand wiedergeben; außerdem kurz darauf hinweisen, dass er sich geändert hat und was sich geändert hat.
LG --PerfektesChaos 17:25, 11. Okt. 2015 (CEST)Beantworten
Hm, die Meldungen von 2012 muss ich nicht mehr auswerten, die sind schon ausgewertet. Wenn eine neue Meldung verteilt wird, wird ggf. die alte Meldung entfernt, sofern keine zusätzlichen Kommentare (außer erl. o.ä.) dabei sind. Falls keine neue Meldung abgesetzt wird, werden verwaiste Meldungen im Anschluss ebenfalls entfernt, sofern sie keine zusätzlichen Kommentare enthalten. – Giftpflanze 17:40, 11. Okt. 2015 (CEST)Beantworten
Ah, wusste ich nicht, dass du die schon eingelesen hattest. Ich dachte, du siehst sie erst, wenn du die Disk anfasst.
Dann kann der Text oben vereinfacht werden; als Vorstufe zur 2016er Schlussfassung. Allerdings sollten die Leute keinen vorschnellen Edit im Vorgriff auf den Bot machen, sondern erstmal abwarten und die Füße und Finger stillhalten.
Wenn ich mal Langeweile habe, kann ich 2016 auch den Quelltext durchgucken, ob weiter unten eine neumodische Einbindung vorhanden ist, und durch den Anker in der neuen Überschrift einen Hinweis auf 2015-10 in den 2012er Kasten setzen.
Die Liste der URL ist eigentlich sowieso obsolet; wenn sich niemand in einem Kommentar explizit darauf bezieht, können und sollen die auch eliminiert werden, verkleistern nur die Weblinksuche mit lauter Schrott.
LG --PerfektesChaos 17:56, 11. Okt. 2015 (CEST)Beantworten

Sonderzeichen

Bearbeiten

Sonderzeichen sollten nur in dem Fall erwähnt werden, wenn das --Flag benutzt wird, denn wenn es fehlt, ist der Link so oder so defekt. (cf. [8]) – Giftpflanze 02:12, 20. Okt. 2015 (CEST)Beantworten

Öhff, ühm, baue ich ein, sobald ich die Botschaft begriffen habe. Zu lange her, habe alles vergessen. --PerfektesChaos 13:09, 20. Okt. 2015 (CEST)Beantworten
Habe jetzt was gemacht; meine eigene Erkennung auskommentiert. So recht? --PerfektesChaos 19:18, 25. Okt. 2015 (CET)Beantworten
Beim 4. Link ist noch ein Problem:
  • Vielleicht ist eine archivierte Version geeignet: archive.org (URL endet auf Satzzeichen; mal ohne probieren)
  • URL ohne Sonderzeichen am Ende funktioniert
Beides ist falsch. Der zweite Punkt muss weg und der erste könnte lauten:
  • Vielleicht ist eine archivierte Version geeignet: archive.org
Der Link dann ohne Satzzeichen. – Giftpflanze 19:43, 25. Okt. 2015 (CET)Beantworten

Ausschlussliste

Bearbeiten

Zu https://tools.wmflabs.org/giftbot/thousand-20151015:

  1. Die Authority wayback.archive.org kommt im ANR ausschließlich von der Vorlage {{Toter Link}}, kann also ignoriert werden.
  2. Die Authority commons.wikimedia.org kann als Projektintern auch ignoriert werden. Bin aber überrascht, dass da so viele nicht erreichbare Links aufscheinen.
  3. Die Authority " " dürfte eigentlich nicht vorkommen. Ich vermute hier Fehler der Art https://example.org%2Ftestpfad%2Ftestpage Bei solchen Fällen könnte man prüfen ob ein URL-decode einen brauchbaren Link liefert.
  4. Für die Authority 81.10.184.26:9001 erstelle ich einen Botauftrag unter Wikipedia:WikiProjekt_Weblinkwartung/Bot-Auftrag Die sind nach www.landesmuseum.at umgezogen. Wer weiter Umzüge kennt, bitte um Meldung!  Frohes Schaffen — Boshomi ☕⌨☺  13:04, 23. Okt. 2015 (CEST)Beantworten
  1. Danke.
  2. Ich würde das trotzdem drin lassen. Defekt ist defekt.
  3. War ein Encoding-Fehler. Danke für den Hinweis. – Giftpflanze 15:34, 23. Okt. 2015 (CEST)Beantworten
  1. Bei Anzahl 63 bei der Authority "www" dürfte auch ein Fehler vorliegen. Kann das sein, dass das Links nach dem Muster "http://www. example. org/ pfad" sind? Sowas ist mir auch schon gelegentlich untergekommen. Frohes Schaffen — Boshomi ☕⌨☺  22:10, 24. Okt. 2015 (CEST)Beantworten
    Siehe toollabs:giftbot/www-20151015b (die ??-URLs können ignoriert werden). Also viele Kommata, doppelte Punkte, senkrechte Striche oder einfach nur http://www und Sonstiges. Durch die Normalisierung werden die URLs ein bisschen verformt, für das Original muss man halt bei der pageid nachgucken (1. Spalte). – Giftpflanze 22:25, 24. Okt. 2015 (CEST)Beantworten
  1. Die Authotrity timetravel.mementoweb.org/ bitte ausnehmen. Ich habe es derzeit in die Vorlage Toter Link anstatt wayback.archive.org einsetzt. Der Vorteil ist, dass dort zusätzlich zum Internet Archive auch einige weitere Webarchive durchsucht werden. Der Nachteil ist, dass es langsamer ist, und Suchen mit "*" am Ende nicht funktionieren. Ich möchte mal sehen, wie das angenommen wird, kann es aber auch ohne Probleme jederzeit wieder auf das Internet Archive zurücksetzen.  Frohes Schaffen — Boshomi ☕⌨☺  19:18, 4. Nov. 2015 (CET)Beantworten

Überarbeitete Hilfe-Seite

Bearbeiten

Ich habe mal angefangen, die Hilfe-Seite zu überarbeiten, die dann von allen Diskussionsseiten verlinkt sein wird (→ hier). Mit einem roten Strich links sind Passagen markiert, die noch überarbeitet/ergänzt werden müssen. Mithilfe/Korrekturlesen erwünscht!

@Giftpflanze: schaust Du Dir bitte mal den Abschnitt mit den Bug-Meldungen an? Bleibt das auch bei diesem Lauf so?

@Boshomi: Soll weiterhin der Abschnitt stehenbleiben, der für die Vorlage:Toter Link den Einsatz des Parameters checked= beschreibt oder ist das obsolet?

Ist irgendetwas nicht markiert und trotzdem überarbeitungsbedürftig? --Mabschaaf 20:01, 24. Okt. 2015 (CEST)Beantworten

Nach erster Übersicht passt es.
  • Du könntest noch an einigen Stellen stärker betonen, dass historische Diskussionen über URL-Technnik auch mit dem heutigen Inhalt noch zu tun haben müssten. Wenn der Abschnitt und die Thematik seit 2014 nicht mehr im Artikel vorkommen, dann ist auch die damalige Diskussion um kaputte URL müßig, im Zweifelsfall aus archivierten und notfalls wiederherstellbaren Versionen rekonstruierbar, aber ohnehin völlig Banane.
Info: Benutzer:PerfektesChaos/js/defekterWeblinkBotVorlage geht Ende des Monats außer Dienst.
Zu dispenser-Tools wünsche ich mir einen Hinweis analog Hilfe:Links auf diese Seite #Werkzeuge – dispenser wurde von den Labs/Tools verbannt, weil er nicht offenlegen wollte, was er mit den Benutzerinformationen macht, die er bei jedem Abruf gewinnt.
Enjoy --PerfektesChaos 20:34, 24. Okt. 2015 (CEST)Beantworten
ja, das "checked" kann weg. Wenn für einen toten Link kein Ersatz herangeschafft wurde, dann liegt das meist daran, dass man bisher nur an den falschen Stellen suchte. Bemerkenswerter Weise war für die mit "checked" markierten Links leichter Ersatz heranzuschaffen als bei den meisten normal markierten toten Links. Frohes Schaffen — Boshomi ☕⌨☺  22:18, 24. Okt. 2015 (CEST)Beantworten
Ich hätte dieses Mal gerne eine zentrale, archivierbare Fehlerseite (hatten wir schon mal irgendwo besprochen, als Unterseite von WP:Defekte Weblinks). – Giftpflanze 22:27, 24. Okt. 2015 (CEST)Beantworten
Zu meinem Verständnis: Fehlerseite meint eine Unterseite der oben beschriebenen Anleitung, auf der Unstimmigkeiten gemeldet werden sollen, statt als GiftBot-Disku, wo Archive und Stammtischeinladungen auflaufen? Meine ich, in dem Entwurf so gelesen zu haben. Lässt sich jedenfalls so verlinken. LG --PerfektesChaos 22:40, 24. Okt. 2015 (CEST)Beantworten
Kann man sowas mit einer Schaltfläche mit Preload lösen, die dann auch gleich den betroffenen Artikel als Parameter mitliefert? Frohes Schaffen — Boshomi ☕⌨☺  23:02, 24. Okt. 2015 (CEST)Beantworten
Ich denke schon, ja. – Giftpflanze 23:05, 24. Okt. 2015 (CEST)Beantworten
  • In die Anleitungsvorlage müsste eingefügt werden:
Ist ein von einem Bot als defekt gemeldeter externer Link doch erreichbar, dann bitte [{{fullurl:Wikipedia:Defekte_Weblinks/Bot2015-Problem|action=edit&section=new&nosummary=1&preload=Wikipedia:Defekte_Weblinks/Bot2015-Problem/preload&preloadtitle=%5B%5B{{SUBJECTPAGENAMEE}}%5D%5D&preloadparams%5B%5D={{SUBJECTPAGENAMEE}}}}} Problem berichten.]
Im Artikel [[{{{1|???}}}]] ([[Diskussion:{{{1|???}}}|Diskussion]]) gab es Seltsamkeiten mit der/den URL:
* ...
* ...
--~~~~
  • Das momentan auf der Anleitungsseite dargestellte Vorgehen, den Namen der Vorlage zu verändern, würde ich nicht empfehlen; und in dem Moment würde auch die bisherige URL-Liste verschwinden, und welche der vielen URL nun doch erreichbar war, ginge daraus auch nicht hervor. Die Leute sollen die Vorlageneinbindung in Ruhe lassen und nur komplette Zeilen herauslöschen.

Freihändig, testet es selbst; LG --PerfektesChaos 13:33, 25. Okt. 2015 (CET)Beantworten

Jetzt hatte ich grad Zeit.
http://de.wikipedia.beta.wmflabs.org/wiki/Wikipedia:Defekte_Weblinks/Bot2015-Problem kann zur Archivierung vorbereitet werden.
--PerfektesChaos 19:18, 25. Okt. 2015 (CET)Beantworten


@Mabschaaf: Ich habe ein Navigations- und Orientierungsproblem; und ja, ich habe nicht bemerkt, dass irgendwas an irgendwelchen anderen Stellen eingebaut wurde.

  • Als Normal-Autor werde ich im Kasten von der Artikeldisku auf WP:DWL#Bot2015 verwiesen.
  • An dieser Stelle steht nun für 200.000 Artikel gemeinsam die Anleitung, die 2012 in dem Kasten auf jeder einzelnen Artikeldisku gestanden hatte.
  • Seit eben lande ich dort in einer nichtssagenden Ecke und weiß nicht, wie es weitergeht.
  • Sinn der Sache ist, dass auf WP:DWL alle Infos für normale Autoren auf einer einzigen Projektseite zusammengestellt sind.
  • Unter #Bot2015 muss also die viertelmillionfache Besonderheit für diejenigen dargestellt werden, die von der Artikeldisku aus geklickt hatten.
  • Für die eigentliche Arbeit am Artikel gilt alles das, was sonst so auf WP:DWL steht.
  • Die Vorlagendoku ist nur an Bot-Programmierer sowie Entwickler in den nachfolgenden Generationen gerichtet; und rein informative Hintergrunddetails für neugierige Autoren, die mehr über die Zusammenhänge erfahren wollen.

LG --PerfektesChaos 10:55, 31. Okt. 2015 (CET)Beantworten

Ah, jetzt habe ich das Problem verstanden. Ich hatte mich am alten Seitenaufbau orientiert und diesen für die neue Meldung angepasst.
Bisher beschreibt die Seite ein schrittweises Vorgehen beim Reparieren. Wer dazu eine Meldung macht (Mensch oder Bot) und wann, ist dem Seiteninhalt völlig schnuppe gewesen.
Neu ist, dass plötzlich via Link und Anker eine viertelmillion Artikel auf einen Unterabschnitt der Seite verlinken - der dann versucht, einen Teilaspekt der kompletten Seite zusammenzufassen: Abarbeitung einer Botmeldung von 2015. Das passt strukturell natürlich nicht zusammen.
Spontan habe ich dafür keine Lösung, aktuell zudem sehr wenig Zeit.--Mabschaaf 11:34, 31. Okt. 2015 (CET)Beantworten
Ich sehe hier kein Problem.
Lasse es doch einfach so, wie ich es hatte.
Wenn ein Autor zum allerersten Mal von der Disku dem Link folgt, sieht er diesen Unterabschnitt und wird ein wenig scrollen und merken, dass es ein hoffentlich alter Bekannter ist. Dann wird der Link im Artikel gefixt gemäß der sonstigen Hinweise, und zum Schluss wieder im Unterabschnitt zu Vorlagen nachgeschaut, wie das nun mit der Vorlage weitergeht.
Im Unterabschnitt stehen doch nur Hinweise, was mit dem Vorlagen-Output und den Vorlagenparametern machbar ist; eine Überschneidung/Dopplung mit dem Rest der Seite sehe ich nicht.
LG --PerfektesChaos 12:03, 31. Okt. 2015 (CET)Beantworten
Ok, sehe ich zwar nicht so, aber ich habe mich revertiert und der Schwarm kann es ja besser machen.--Mabschaaf 12:33, 31. Okt. 2015 (CET)Beantworten
Das ist momentan etwas unglücklich strukturiert.
Die „Anleitung zum Reparieren“ gilt in jedem Artikel für jeden Autor.
  • Bearbeiter müssen überhaupt nicht von der Artikeldisku gekommen sein und überhaupt nichts von einem Bot-Abschnitt wissen.
  • Es kann sein, dass die URL erst im Dezember 2015 kaputtging und ein Bearbeiter sich im Januar 2016 an den Artikel setzt, der noch nie eine Diskusionsseite hatte.
  • Dann muss die „Anleitung zum Reparieren“ aber trotzdem konsistent sein.
  • Momentan wird unterstellt, dass alle Bearbeiter immer über einen Bot-Abschnitt auf der Disku zum Artikel gefunden hätten.
In der „Anleitung zum Reparieren“ sind die Zusatzhinweise des Bots nur das Sahnehäubchen; es muss auch ohne gehen.
  • Umgekehrt wären beliebige Bearbeiter darauf hinzuweisen, dass es auf der Artikeldisku einen Bot-Abschnitt geben könnte, der interessante Zusatzinfos enthalten könnte.
LG --PerfektesChaos 18:45, 31. Okt. 2015 (CET)Beantworten
Ja, das ist mir alles klar und das meinte ich auch oben schon. Ich frage mich schon, ob das alles auf einer Seite stattfinden muss. Die „Anleitung zum Reparieren“ ist immer gleich, ob es eine Botmeldung gibt oder nicht. Einzige Ausnahme: Der Schritt „Disku aufräumen“. Gab es keine Meldung, ist dort nichts zu tun. Was ggf. aber dort genau zu tun ist, unterscheidet sich in a) Benutzer-Meldung, b) Bot-Meldung von 1893/2012 und c) Botmeldung 2015.
Die allermeisten Klicks aus dem 2015er-Diskukasten dürften kurzfristig kommen, weil sich Benutzer, die das 2012er Procedere zur genüge kennen, über die Änderungen in 2015 informieren wollen. Eigentlich sollte es genau diesen „What's new?“-Abschnitt geben. Der passt aber überhaupt nicht in die sonstige Seitenstruktur.
Wie wäre es mit einer eigenen Seite zum „Umgang mit Botmeldungen defekter Weblinks“? Dort könnte 2012 (noch für eine Übergangsphase) und 2015 viel besser erläutert und voneinander abgegrenzt werden, ohne auf die allgemeine Anleitung zum Fixen Rücksicht nehmen zu müssen.--Mabschaaf 19:01, 31. Okt. 2015 (CET)Beantworten
@PerfektesChaos: Als Entwurf wären das diese beiden Seiten:[9] und [10]. Durch die Trennung wird das mM deutlich übersichtlicher.--Mabschaaf 12:40, 3. Nov. 2015 (CET)Beantworten
Wenn du meinst.
  • Der Abschnitt „Diskussionsseite aufräumen“ müsste dann aber auch noch rüber.
Es würde dann eine Unterseite Wikipedia:Defekte Weblinks/Botmeldung.
Im Arbeitsablauf #Prüfung müsste nochmals extra darauf hingewiesen werden, dass möglicherweise auf der Diskussionsseite zum Artikel ein Abschnitt mit zusätzlichen und nützlichen Hinweisen stehen könnte. Jemand (Newbie), der erst einen toten Link gefunden hat und nun nach Reparaturhinweisen sucht, muss davon ja noch gar nichts wissen.
LG --PerfektesChaos 12:51, 3. Nov. 2015 (CET)Beantworten

Kurier-Meldung

Bearbeiten

Schaut ihr Euch bitte auch mal die vorbereitete Kurier-Meldung auf Richtigkeit/Vollständigkeit/Verständlichkeit an? Bitte gerne direkt selbst verbessern!--Mabschaaf 10:05, 25. Okt. 2015 (CET)Beantworten

Sehr schön! Frohes Schaffen — Boshomi ☕⌨☺  10:39, 25. Okt. 2015 (CET)Beantworten
PerfektesChaos hat schon korrigiert, ich werte das mal als Freigabe für den Rest. @Giftpflanze: Ist das von Deiner Seite auch ok so?
Wann sollte der Artikel erscheinen?--Mabschaaf 19:46, 25. Okt. 2015 (CET)Beantworten
Laut Zeitplan gut eine Woche vor Start, also würde ich sagen, so am 1.11. Ich war die IP, bin soweit auch einverstanden. – Giftpflanze 19:55, 25. Okt. 2015 (CET)Beantworten

Noch eine Frage @PerfektesChaos: In der Meldung werden die .css-Manipulationsmöglichkeiten angesprochen. Könntest Du irgendwo noch zusammenfassen, was da geht? Als Kopiervorlage und verständlich für User ohne jeden Technik-Background?--Mabschaaf 20:02, 25. Okt. 2015 (CET)Beantworten

Ah, habe ich auch gelesen und war erstaunt.
Wenn mir jemand genauer sagen würde, worum es sich handelt und wie das mit CSS gehen soll? Wo kommt denn diese These her?
Ich kenne hierfür nur JavaScript; Benutzer:PerfektesChaos/js/listPageOptions ließe sich privatkonfigurieren.
LG --PerfektesChaos 20:07, 25. Okt. 2015 (CET)Beantworten
Oben unter "Änderungswünsche" hattest Du die class="deadlink-bot" erwähnt, dieser Inhalt sollte sich ja schon mal ausblenden lassen. Mittels den listPageOptions lassen sich gezielt die Bearbeitungen von "Giftbot" auf der Beo (ist das korrekt beschrieben mit "die Erweiterte Beobachtungsliste"?) ausblenden, dann fehlt eigentlich nur noch eine Klassenzuweisung für den Text, der durch Vorlage:Defekter Weblink/Anleitung erzeugt wird, damit auch dieser individuell ausgeblendet werden kann. Damit ist dann praktisch alles weg - außer der Überschrift auf der Disku. Diese Möglichkeit zu schaffen halte ich für sehr sinnvoll, denn es gibt hier Leute, die es wirklich einfach nicht sehen wollen.--Mabschaaf 22:07, 25. Okt. 2015 (CET)Beantworten
  • Vorlage:Defekter Weblink #CSS – ich hatte bei dem Feature mehr an auffällige Hervorhebung denn an Ausblendung gedacht; das muss man ja nicht so unbedingt dazuschreiben. Wer wirklich nicht mag, wird schon drauf kommen.
  • Beo
    • Ob erweiterte oder nicht spielt keine Rolle. „Erweiterte Beobachtungsliste“ ist ein Mediawiki-Feature und hat nichts mit listPageOptions zu tun.
    • Es gibt keine CSS-Regel, die GiftBot aus der Beo ausblenden könnte.
    • Mit JS kann listPageOptions das; externalLinkProblem wird es standardmäßig vornehmen.
LG --PerfektesChaos 13:46, 26. Okt. 2015 (CET)Beantworten

Ich frage mich gerade, ob wir nicht vielleicht Benutzer:GiftBot/Meldungen im Kurierartikel anpreisen sollten, wir könnten Hilfe bei der Abarbeitung gebrauchen. – Giftpflanze 14:03, 26. Okt. 2015 (CET)Beantworten

Nee, der Kurierartikel ist schon voll genug. Besser ein Thema richtig als Kraut und Rüben, und zum Schluss weiß und macht niemand was.
Aber einen Monat nach Anlauf (kurz vor Weihnachten? oder besser erst im Januar) kann man ja vielleicht eine Erfolgsbilanz der Technologie ziehen, Gejubel der ersten Serienbeseitiger wiedergeben; oder nach dem zweimonatigen Schreiblauf eine Abschlussmeldung. Und da die Sache mit der Löschung von Altbeständen dranhängen; dann können die eigentlich wirklich alle weg.
PS: Schreibe bitte an diese Verlinkung die MB-Zahl dran; 13 Bytes kommen mir etwas arg wenig vor; hast du das Seitenlimit geknackt?
LG --PerfektesChaos 14:17, 26. Okt. 2015 (CET)Beantworten
Jaja doch, da steht nur
{{/1}}
{{/2}}
drin. ^^ – Giftpflanze 14:28, 26. Okt. 2015 (CET)Beantworten
Okay, 6 + 1 + 6 = 13. Sehe ich ein. Und 1.576.255 + 1.576.253 = 3.152.508 – sagen wir mal 3 MB.
Nebenbei: Das <pre> ist schon seit vielen Jahren kein HTML-<pre> mehr, sondern ein MediaWiki-<pre> – und bei dem ist das <nowiki> schon mit drin.
LG --PerfektesChaos 23:28, 27. Okt. 2015 (CET)Beantworten
OK? Ich hätte jetzt vermutet, dass ich pre und nowiki zusammen verwende, aber das ist gar nicht der Fall? – Giftpflanze 14:21, 28. Okt. 2015 (CET)Beantworten
Das habe ich jetzt nicht verstanden. H:pre? LG --PerfektesChaos 15:46, 28. Okt. 2015 (CET)Beantworten
Dann müssen wir das einfach so stehen lassen, dass wir uns wieder mal gegenseitig nicht verstehen. – Giftpflanze 16:04, 28. Okt. 2015 (CET)Beantworten
Och nö.
Du schrubst oben:
<pre><nowiki>
{{/1}}
{{/2}}
</nowiki></pre>
Das kannst du billiger haben:
<pre>
{{/1}}
{{/2}}
</pre>
Sieht dann so aus:
{{/1}}
{{/2}}
<pre> wertet nur noch Entities aus und ignoriert <nowiki> innendrin.
Unsere ganzen neueren Vorlagendoku-Codebeispiele sind so notiert.
LG --PerfektesChaos 12:59, 29. Okt. 2015 (CET)Beantworten

@Giftpflanze: Gibst Du nochmal ein Feedback, wenn die fünfte Prüfung durch ist? Dann müssten in der Statistik die Zahlen nochmal aktualisiert werden, im Kurierartikel auch und dann würde ich ihn einstellen. So ganz nebenbei könntest Du evtl. Benutzer:GiftBot/Meldungen gelegentlich aktualisieren. Eine Frage noch am Rande: Kannst Du eigentlich feststellen, ob ein (defekter) Weblink im Artikelquelltext hardcodiert ist oder ob er via Vorlage eingebunden wird?--Mabschaaf 18:13, 1. Nov. 2015 (CET)Beantworten

Naja, ok. Der Sinn war ja, dass der Kurierartikel eine Woche vor Start der Verteilung eingestellt wird und die Prüfungen dauern ja ca. eine Woche, die Verteilung wäre dann eine Woche später. Ich hoffe auch, dass sich an den Zahlen nicht mehr allzu viel ändert. Die Seite kann ich gerne aktualisieren, aber momentan ist der Code kaputt, warum auch immer. Und ich kann bisher nicht feststellen, ob die URL im Artikel direkt oder indirekt enthalten ist, aber ich könnte per regulärem Ausdruck alle URLs im Artikel raussuchen und dann gucken, ob sie sich normalisiert mit der defekten URL decken (ob das Ganze sinnvoll ist, weiß ich aber nicht). – Giftpflanze 18:33, 1. Nov. 2015 (CET)Beantworten
Letzteres habe ich geahnt, naja, egal. Ich wollte auf alle Fälle erst an die Öffentlichkeit mit dem Kurierartikel, wenn die Daten komplett sind, also technisch nichts mehr schiefgehen kann (außer, dass der Botauftrag zum Schreiben auf die Diskus steckenbleibt). Auf dieses grüne Licht warte ich noch, ob das jetzt noch eine oder zwei Wochen dauert, ist echt egal.--Mabschaaf 19:22, 1. Nov. 2015 (CET)Beantworten

Die fünfte Prüfung ist zwar am Freitag beendet gewesen, allerdings scheint es, als ob die Archivabfrage bei archive.org auch noch eine Woche dauern wird. Bei webcitation.org erwarte ich eine ähnliche Dauer (vielleicht sollte ich das aber parallel laufen lassen). – Giftpflanze 00:03, 8. Nov. 2015 (CET)Beantworten

Wann gehts denn endlich los? 129.13.72.198 13:39, 16. Nov. 2015 (CET)Beantworten

Keine Ahnung, ich bin soweit startbereit. Bei den anderen scheints aber noch zu dauern. – Giftpflanze 14:09, 16. Nov. 2015 (CET)Beantworten
Äh, huch, ich dachte die Archiv-Abfrage klemmt noch? Also bei mir stehen alle Ampeln auf grün.--Mabschaaf 14:34, 16. Nov. 2015 (CET)Beantworten
Nein, ich dachte, du wartest nur noch auf die neuesten Zahlen, und die sind ja jetzt da. – Giftpflanze 14:48, 16. Nov. 2015 (CET)Beantworten
na, dann! Vielleicht geht sich da noch was für den laufenden Wartungsbausteinwettbewerb aus. Frohes Schaffen — Boshomi ☕⌨☺  15:08, 16. Nov. 2015 (CET)Beantworten

Seiten-Transfer

Bearbeiten

Die nachstehenden Seiten müssten Ende der Woche hier rüber gewuppt werden (wann genau plant der Bot zu schreiben?):

  1. http://de.wikipedia.beta.wmflabs.org/wiki/Wikipedia:Defekte_Weblinks
  2. Wikipedia:Defekte Weblinks/Botmeldung
  3. http://de.wikipedia.beta.wmflabs.org/wiki/Wikipedia:Defekte_Weblinks/Bot2015-Problem
  4. Wikipedia:Defekte Weblinks/Bot2015-Problem/preload
  5. Vorlage:Defekter Weblink
  6. http://de.wikipedia.beta.wmflabs.org/wiki/Vorlage:Defekter_Weblink_Bot
  7. Vorlage:Defekter Weblink/Anleitung
  8. Modul:Vorlage:Defekter Weblink

--PerfektesChaos 19:18, 25. Okt. 2015 (CET)Beantworten

Zuerst kommt noch ein Prüflauf (ab dem 1.11.). Nach ca. 6 Tagen werden dann die Ergebnisse zusammengefasst, Archivlinks gesucht, pageids etc. Das dauert bestimmt auch noch mal 1–2 Tage. Danach (ohne Stress) werde ich dann loslegen (sofern alles bereit ist). – Giftpflanze 19:45, 25. Okt. 2015 (CET) 2 kopiert PerfektesChaosBeantworten
Ah, danke, dann richte ich mich für das WE 7./8. November auf die Scharfschaltung der neuen Softwarekomponenten ein und empfehle, Mitte der ersten Novemberwoche alle bisherigen Mechanismen herunterzufahren und in den Schlummerzustand zu versetzen. LG --PerfektesChaos 20:07, 25. Okt. 2015 (CET)Beantworten

Frage zu Beta Wikipedia:Defekte_Weblinks#Bot2015: Ist das manuelle Aufräumen (#Diskussionsseite aufräumen) mit der neuen Vorlage tatsächlich noch notwendig? Frohes Schaffen — Boshomi ☕⌨☺  00:31, 28. Okt. 2015 (CET)Beantworten

Ja.
  • Wenn da einfach nur einmal von example.org zu example.com gefixt wurde, dann ist die Angelegenheit damit erledigt.
    • Ich schreibe ja auch nicht zu jedem Pipifax, den ich irgendwo geradebiege, einen Abschnitt auf die Disku: Hurra, ich habe ein Ei gelegt!
  • Wenn das Ding drinbleibt, passiert erstmal nix Schlimmes; insbesondere verschwindet die deaktivierte URL aus der Weblinksuche, was ein zentraler Punkt für die Integration in eine einzige Vorlage war.
    • Aber der Neuaufbau der Diskuseite erfordert von Zeit zu Zeit eine Neuauswertung des doch recht komplizierten Moduls; und das für nix und wieder nix.
    • Besonders sinnfrei, wenn alle URL herausgelöscht wurden; dann sollte die leere Hülle erst recht entsorgt werden.
  • Wenn der Bot-Abschnitt nun obendrein der einzige auf der Disku war, dann sind wir mal wieder beim irreführenden Blaulink.
  • Die Disku-Seiten sollen auch nicht zur Müllhalde von wertlosem Kindergekrakel werden; WP:DS #aufräumen Punkt 3: „Erledigte Kleinigkeiten entfernen“ – wenn einfach nur eine Website von A nach B umgezogen ist und das gleiche Dokument jetzt eine neue URL hat, dann ist das nicht weltbewegend und für die Nachwelt uninteressant. Wir ersaufen sonst in Nebensächlichkeiten, und ernsthafte inhaltliche Fragen werden nicht mehr deutlich.
VG --PerfektesChaos 09:31, 28. Okt. 2015 (CET)Beantworten

Nachdem Luke081515 mühevoll eine VG-Vereinigung auf beta gemacht hat: @PerfektesChaos: legst Du Wert auf Deine Beiträge in der VG der Seiten WP:Defekte Weblinks und WP:Defekte Weblinks/Botmeldung oder darf ich die zu gegebener Zeit per c&p nach alpha produktiv transferieren?--Mabschaaf 10:38, 15. Nov. 2015 (CET)Beantworten

Es ist grundsätzlich so gedacht, dass die frischeste BETA-Version von allem per C&P hier anlandet.
Ich selbst hatte eher marginale Beiträge geleistet, sehe keine Schöpfungshöhe und lege keinen Wert auf namentliche Erwähnung.
Auf BETA sind alle VG der Seiten nachlesbar; und das auch bei gelöschten Seiten, zumal Hinz und Kunz und ich dort Admin sind.
Wenn dich das Gewissen plagt, kannst du beim C&P in den hiesigen BK reinschreiben „unter Mitarbeit von …“, wo das angebracht wäre. Die Texte hattest überwiegend du vorbereitet.
Bis auf die drei WP:Defekte Weblinks und WP:Defekte Weblinks/Botmeldung sowie deaktivierende Vorlage:Defekter Weblink Bot halte ich die Software-Infrastruktur übrigens für fertig, transferierbar und ggf. dreiviertelschützenswert. Der Rest käme nach dem Kurierartikel, um hierzuwiki keine Verwirrung zu stiften, ansonsten eigentlich auch schon poliert.
Nebenbei bemerkt ist „alpha“ noch testiger und entwicklungsmäßiger als „beta“; wir hier sind „produktiv“ oder „release“ – „alpha“ wäre ein erster interner Gehversuch voller Fehler und „beta“ eine vermutlich funktionierende Version, aber noch nicht in allen Konstellationen erprobt und mutmaßlich fehlerbehaftet.
Schönen Sonntag --PerfektesChaos 12:07, 15. Nov. 2015 (CET)Beantworten
Ich hatte nichts anderes erwartet, daher selbst auch keinen Wert auf die VG gelegt.
Sach mal, wenn ich Ersteller der Seite WP:Defekte Weblinks/Botmeldung bin und diese wird nun 500.000fach verlinkt, kriege ich dann auch 500.000 Echos oder ist diese Funktion nur im ANR aktiv?--Mabschaaf 12:30, 15. Nov. 2015 (CET)Beantworten
Interessante Frage; ich habe mehrere 100 Projektseiten erstellt und das Häkchen wie standardmäßig vorgegeben drin, aber noch nie ein Echo bekommen. Ich weiß aber, dass etliche verlinkt wurden. Bei Gelegenheit schau ich gern mal im Code nach. LG --PerfektesChaos 12:47, 15. Nov. 2015 (CET)Beantworten
Wäre wichtig zu wissen, sonst lege ich die Seite lieber als IP an. Ich wollte nämlich nicht testen, für wie viele Stellen der Echo-Zähler programmiert ist ;-) --Mabschaaf 13:20, 15. Nov. 2015 (CET)Beantworten
@Umherirrender: Da müsstest du mir mal erklären, wer oder was MWNamespace::isContent() ist: Jeder NR außer Disku und Spezialseite, oder der Haupt-NR? Siehe onLinksUpdateAfterInsert() – und warum habe ich noch nie ein linked bekommen, bei 50 angelegten Hilfeseiten, >250 Shortcuts, über 100 Labs/Tools?
Statt als IP dann pfiffiger Benutzer:Mabschaaf2 mit regulärer Benutzerseite und Nicht-SOP-Disclaimer.
LG --PerfektesChaos 15:10, 15. Nov. 2015 (CET)Beantworten
Content wird über mw:Manual:$wgContentNamespaces definiert. Ist bei uns nur der Artikelnamensraum. In anderen Projekten auch die Listen oder Portalnamensräume oder was es sonst noch so gibt. Darüber werden auch der oder die Namensräume für die Anzahl der Artikel auf Spezial:Statistik definiert. Der Umherirrende 16:22, 15. Nov. 2015 (CET)Beantworten
@PerfektesChaos: schiebst Du die von Dir erstellten (Unter-)Vorlagen und Seiten nach produktiv? Schutz übernehme ich dann, Kurier folgt evtl. noch heute Abend.--Mabschaaf 16:53, 16. Nov. 2015 (CET)Beantworten
Habe schon mal zwei weitere technische Bausteine kopiert; Deaktivierung des Laufs 2012 dann drei Tage nach Kurier = drei Tage vor Verteilung. LG --PerfektesChaos 22:38, 16. Nov. 2015 (CET)Beantworten
  • Kurier ist raus.
  • Was ist mit der oben angemerkten fehlenden Navibox beim Bot-Problem?
  • Was geschieht mit Vorlage:Defekter Weblink Bot/Wartung und Unterseiten?
  • Eine frühzeitige Deaktivierung der 2012er-Meldungen könnte übrigens zu größerem Unmut führen, weil bis zum 29. November noch der aktuelle WP:WBW läuft, das Fixen Punkte bringt und geleerte Wartungskats arbeitslos machen. Daher vielleicht Änderung der Vorlage:Defekter Weblink Bot erst am 30.11.?
Bitte auf WD:K mitlesen und ggf. Fragen beantworten. Dickes Fell und Kopf hoch --Mabschaaf 08:30, 17. Nov. 2015 (CET)Beantworten
  • Hmmpf. Koordination ist alles. @WBW:
    • Ich werde die Wartungskat von 2012 dann noch vorläufig in der Vorlage belassen und darin auch noch auf den WBW hinweisen.
    • Das endgültige und auf BETA definierte Format kommt dann nach Auswertung des WBW in der ersten Dezemberwoche.
    • Das ändert nichts daran, dass der Bot in der sich überschneidenden letzten Novemberwoche den kompletten Abschnitt entfernen könnte.
    • Ich werde den WBW auf diese Situation hinweisen.
  • Langfristige Perspektive zu 2012:
    • Alle Diskussionen und statistische Übersichten zur Aktion sind in geeignete Archive zu überführen.
    • Alle Listen konkreter URL sind zu eliminieren; schon damit sie die Weblinksuche nicht mit automatisch generierten Trümmerhalden zumüllen.
    • Perspektivisch wandern alle beteiligten Seiten und Vorlagen in einschlägige Archive oder werden gelöscht.
  • Frühjahr 2016:
    • Einen Monat Verschnaufpause nach dem Ende des Verteilungsbotlaufs ist ein weiterer Botlauf erforderlich, der nach dem selben Prinzip wie dieses Mal unkommentierte Verteilungen aus 2012 entfernt, die jetzt nicht aufgefrischt und eliminiert wurden.
    • Danach wird eine hoffentlich nur dreistellige Anzahl von Vorlageneinbindungen und Abschnitten aus 2012 übrigbleiben, die man im Prinzip alle manuell aufsuchen, auf Erhaltungswert prüfen, ggf. mit genowikiten URL und eliminierter Vorlageneinbindung für die Ewigkeit zur Archivierung freigeben kann.
    • Endzustand ist, dass die Vorlage gelöscht werden kann.
    • Ist wie mit Satellitenschrott oder Kernbrennstäben: Jeder schießt irgendwas automatisiert los, und hinterher staunt man, dass weder Weblinksuche noch sonstwas funktionieren, weil niemand vorher die Entsorgung eingeplant hatte, und allerhand Projektseiten und Diskussionen voller aktiver kaputter URL sind, und solche Aktionen über die Jahre im aktiven Bestand kumulieren.
  • Navibox:
    • Eigentlich sollen alle derartigen Seiten klarmachen, in welchen Kontext sie gehören; vergleiche H:SS/L und H:SS/P. So von wegen Orientierung und so; wo bin ich denn jetzt hier gelandet? Kampagnenlogo?
  • Verteilungsstart:
    • Wir hatten mal abgesprochen, dass am ersten (halben) Tag nur ein Bot-Edit pro Viertelstunde läuft, so dass man noch manuell hinterherdiffen kann, bis nach den ersten paar Stunden gesichert ist, dass alles planmäßig läuft; dann kann es auf volle Pulle geschalt werden.
LG --PerfektesChaos 12:11, 17. Nov. 2015 (CET)Beantworten
Hatten wir? Wo steht das denn? – Giftpflanze 18:54, 17. Nov. 2015 (CET)Beantworten
Keine Ahnung, kann ich mich auch nicht erinnern. Ist aber im Prinzip nichts schlechtes. Du kannst Deinen Bot ja auch die ersten 50 raushauen lassen und dann den Stop-Knopf drücken. Einfach damit noch ein paar Augenpaare noch mal drüberschauen können. Wenn dann kein Mecker kommt, einfach weitermachen.
Die Alternative, irgendwas geht schief, irgendwer meldet auf VM und ein Admin muss Not-Aus machen, ist nicht schöner. Den Ärger solltest Du Dir ersparen. That's all.--Mabschaaf 19:50, 17. Nov. 2015 (CET)Beantworten
  • Wo das stand, weiß ich nicht mehr, kann über zwei Jahre her sein. Kein Nerv, das heute abend noch zu suchen.
  • War eine der Lehren aus 2012.
  • Also erst mal mit 1000-Sekunden-Taktung den Zug abfahren, so dass man während der Fahrt aussteigen, nebenher Blümchen pflücken und wieder einsteigen kann. Heißt: Die ersten Schreibvorgänge beobachten und diffen, und vor allem die ersten Löschungen der 2012er Abschnitte: Was mäht er, was lässt er stehen. Wenn das alles fein ist, dann die Signale auf voll grün und die nächsten zwei Monate volle Pulle. Wenn was schiefläuft, kann man noch manuell hinterherreparieren.
LG --PerfektesChaos 21:41, 17. Nov. 2015 (CET)Beantworten
  • Wenn wir langsam anfangen, dann wäre mir der Samstag ganz recht. Da ist die Wikisourceconf und dort kann ich sicher nebenbei rund 10 Artikel pro Stunde ansehen. Beginn ca. 9:00 bis 17:00. Danach ab 20:00 bis 24:00 rund 100 Artikel. => Für den Bot: In der Früh mal ein kleiner "Echt-Test-Lauf" mit 100 Artikel (von mir aus mit max. Tempo). Am Abend dann nochmals 100 Artikel. Wenn zwischendurch jemand "OK" ruft, können weitere Läufe zu je 100 Seiten eingeschoben werden.
  • Für Mitlesende mit ausreichend RAM: ein nützliches Tool zum schnellen Öffnen vieler Seiten gleichzeitig ist das Firefox-Addon "Snap Link Plus" bzw. für Chrome "Linkclump" (im deutschen Sprachraum dürfte die Steuerungstaste zum Auslösen der Funktion die günstigere sein, das muss bei beiden Tools manuell eingestellt werden). Damit erspart man sich doch einiges an Klicks. Siehe auch hier. Bei sehr wenig RAM (z.B. 2 GB) ist das nicht empfehlenswert. Frohes Schaffen — Boshomi ☕⌨☺  00:16, 18. Nov. 2015 (CET)Beantworten
@PerfektesChaos: Vorlage:Defekter Weblink Bot/Doku bräuchte eigentlich jetzt ein refresh.--Mabschaaf 18:42, 19. Nov. 2015 (CET)Beantworten
Verstehe ich grad nicht; hat schon refresh bekommen: Tempus. Weiter geht es Frühjahr 2016.
FYI: Wikipedia:WikiProjekt Kategorien/Diskussionen/2015/November/19 #Kategorie:Wikipedia:Defekter Weblink Bot/2013-06-17
LG --PerfektesChaos 18:50, 19. Nov. 2015 (CET)Beantworten

Unterkategorien

Bearbeiten
Ich würde vorschlagen die Unterkatgeorien nach {{#expr: {{PAGEID}} mod 2184 }} anzulegen. Das Magic Word PAGEID gab es 2012 noch nicht. Auf diese Weise erreichen wir eine stabile Kategoriesierung, die nicht täglich neu Kats benötigt. Wenn später mal der Bot regelmäßig läuft, etwa nach einem Mod91-Verfahern, würde der Bot genau 6 Kategorien pro Tag aktualisieren. Wenn 160 Artikel pro Kat als zu viel empfunden würde, könnte man auch leicht auf 4368 verdoppeln. Auf diese Weise ergibt sich ein logischer Kreislauf, der sich schön abarbeiten lässt. Man könnte dann sogar in die Kategorie hineinschreiben, wann der Bot die nächste Aktualisierung durchführen wird. Frohes Schaffen — Boshomi ☕⌨☺  21:43, 19. Nov. 2015 (CET)Beantworten


Nein, Leute, so geht das nicht. GiftBot wird eine geraume Zeit brauchen, um die entsprechenden Bausteine zu setzen, und bis dahin muß natürlich die Verwaltung der Seiten aus dem Jahr 2012 gewährleistet bleiben. Ihr dürft auch nicht übersehen, daß jede Bearbeitung einer Artikeldiskussionsseite eine Seite umsortiert, in immer neue Kategorien, bis GiftBot auch die letzte Diskussionsseite aktualisiert hat. Die Reihenfolge, in der Giftpflanze arbeitet, ist aber eine andere Reihenfolge, als sie in den Karegorien vorliegt. Das ist ein Punkt.

Der andere Punkt: Worin liegt der Sinn, die Diskuseiten des neuen Botlaufes von den Diskuseiten des alten Botlaufs auseinanderzusortieren? Für interessierte Abarbeiter isses völlig gleich, ob der Eintrag von 2012 oder 2015 stammt, und bis GiftBot durch ist, werden vermutlich noch tausende von Artikeln gefixt. --Matthiasb –   (CallMyCenter) 19:57, 19. Nov. 2015 (CET)Beantworten

@Matthiasb: die alten Kats sind mit Beginn des neuen Laufs tatsächlich nicht mehr notwendig, weil der neue Lauf auch deutlich bessere Ergebnisse bringen wird als der alte, und damit niemand mehr die alten Kats mit den vielen Leerläufen (bereits gefixte Links) abarbeiten will. Es stimmt schon, die Löschung erfolgte ein wenig zu früh, aber das ist jetzt auch nicht mehr so wichtig. Frohes Schaffen — Boshomi ☕⌨☺  21:43, 19. Nov. 2015 (CET)Beantworten
Ich will nicht die Diskussion, die auf WD:K läuft hier nochmals parallel führen, aber dennoch soviel: Mmn ist es durchaus sinnvoll, die Zeit-Komponente als Sortierkriterium heranzuziehen, wie das auch bisher der Fall war, u.a. wegen dem Hintergedanken, daß Artikel, bei denen sich auf der Diskuseite gar nix tut oder schon lange nix getan hat, es tendenziell viel notwendiger haben, daß sich der passende Fachbereich (→ MerlBots Wartungslisten) drum kümmert, als Artikel mit mehr Verkehr auf der Diskuseite, der indirekt dazu führt (Überarbeiung/Aktualisierung des Artikeltextes), daß der Bothinweis obsolet ist, auch wenn er nicht entfernt wird. Das ganze übrigens während des WBW umzustellen, ist mehr als unglücklich. Der jetzige WBW ist, nachdem ich eh schon spät dran bin, für mich dieses Mal jedenfalls gestorben, da mein System der "Artikelfindung" für den Wettbewerb nicht mehr funzt. Ob es anderen auch so geht? Vielleicht, vielleicht auch net. --Matthiasb –   (CallMyCenter) 22:01, 19. Nov. 2015 (CET)Beantworten
Zukünftig bekommt jeder Botlauf, der dann regelmäßig stattfinden sollten, eine eigene Kennung, damit würde man mit etwas Geduld auch eine schöne zeitliche Staffelung erreichen. Das oben vorgeschlagene Modulus-Verfahren hat übrigens auch eine Zeitkomponente. Wenn wir uns etwa darauf einigen, dass der Bot täglich genau ein 1/91 aller Artikel durchlaufen sollte, wäre der Bot nach einem Quartal durch. Würden die Kats auch mit Hilfe einer Rest-Division ermittelt, würden das einen recht schönen vorhersehbaren zeitlichen Kreislauf ergeben. Die Botkennung könnte man als Sortierkriterium der Kategorienen verwenden.  Frohes Schaffen — Boshomi ☕⌨☺  22:15, 19. Nov. 2015 (CET)Beantworten
Naja, 1/91 bedeutet mehrere Tausend Seiten pro Kategorie, das löst das Problem nicht. Ich weiß nimmer, wie schnell Giftpflanze beim letzten Mal den Bot laufen ließ, aber bei 5 Edits/Min sind das 7200 in 24 Stunden, was bedeutet, daß wenn der Bot um Mitternacht begänne, morgen Abend in der Kategorie für Morgen 7200 Artikel stehen zuzüglich diejenigen, deren Diskussionsseite morgen bearbeitet wird, das sind ein paar Hundert. Übermorgen stünden in der Kategorie 7200 plus diejenigen aus der alten Reihe, deren Diskussionsseite bearbeitet wird, minus diejenigen des neuen Botlaufs, deren Diskuseite übermorgen bearbeitet wird. Und so weiter. In vierzehn Tagen wären das schon deutlich weniger als 7200, das schiebt sich wie eine Bugwelle. Und die alten, die würden weiter abgearbeitet oder durch GiftBots neuen Lauf ersetzt, aber denken wir daran, es wird Mitte bis Ende Januar sein, bis der letzte Artikel einen neuen Bothinweis hat. Den Benutzern isses egal, aufgrund welchen Botlaufes sie die Wartungskategorien abarbeiten. --Matthiasb –   (CallMyCenter) 22:40, 19. Nov. 2015 (CET)Beantworten
@Giftpflanze: In welcher Reihenfolge arbeitest du die Artikel ab? Nach Seiten-ID? Alphabetisch macht ja keinen Sinn, da ja verschobene Artikel sonst durch das Raster fallen, oder? --Matthiasb –   (CallMyCenter) 22:43, 19. Nov. 2015 (CET)Beantworten
Noch was: Es ist nicht sinnvoll, daß für den neuen Botlauf derselbe Bothinweisbaustein verwendet wird, zumal, wenn man sich wieder gegen meine Ratschläge durchsetzt. Denn dann befänden wochenlang in zehntausenden von Artikeln irreführende Hinweisseiten, das ist gar nicht akzeptabel, denn es werden weiterhin Benutzer auf die Diskussionsseiten stoßen und dann ggf. versuchen nach den neuen Hinweisen die alten Listen abzuarbeiten. Deswegen habe ich Kategorie und Vorlage revertiert und bitte darum, nur noch im Konsens vorzugehen, und Konsens heißt nicht, daß Mfb mit mir einen Editwar führt und Mabschaaf im richtigen Moment den Sperrknopf drückt, wie in der Angelegenheit der Vorlagenmetaseiten. Konsens bedeutet, daß alle sachlichen Zweifel und Sachargumente bereinigt bzw. berücksichtigt wurden. --Matthiasb –   (CallMyCenter) 22:51, 19. Nov. 2015 (CET)Beantworten
Ja, nach Seiten-ID (letztes Mal tatsächlich nach dem Alphabet). – Giftpflanze 22:56, 19. Nov. 2015 (CET)Beantworten
  • Der Divisor den ich vorgeschlagen habe wäre ja 2184 das ist 6*91*4. Eine einzelne Kat wäre dann etwa mit 160 Artikel belegt. Wenn wir später einen regelmäßigen Bot hätten, würde dann genau 6 Kategroien pro Tag aktualisiert. Die 7200 Artikel kommen von der Rechnung dass bei 360000 Artikel der Bot in 60 Tagen durch ist. Da der Bot beim ersten Lauf die Pageid von unten nach oben durchläuft würden alle 2184 Teilkats relativ gleichmäßig mit täglich rund 3 Artikel befüllt, bis nach rund 50 Tagen die 160 Stück/Kat erreicht sind. Danach wäre ein Monat Pause, und dann begänne der regelmäßige Lauf, wo ich 91 Tage/Lauf bzw ~4 Läufe pro Jahr vorschlage. Bei 4 Läufen pro Jahr schätze ich die Zahl der Botedits mittelfristig auf deutlich unter 500 pro Tag (inlk Löschedits), und die Diskussionsseiten wären damit auch ausreichend zeitnah aufgeräumt.
  • Es wird technisch eine völlig neue Vorlage verwendet. Die alten Bausteine werden weggeräumt, sofern sie nicht manuell verpfuscht wurden. (Die Restmenge von rund 2000 Stück muss man dann per Hand bereinigen, was auch schnell erledigbar ist.)
  • Die Vorlage selbst wird weniger Informationen tragen und nicht mehr so auffällig wie die alte sein, Die Informationen befinden sich auf den üblichen Meta-Seiten, die in der Vorlage verlinkst sind. Frohes Schaffen — Boshomi ☕⌨☺  23:15, 19. Nov. 2015 (CET)Beantworten
Read my lips: Es ist nicht sinnvoll, die bisherige Vorlage mit der neuen Vorlage zu überschreiben, weil wochenlang in tausenden von Artikeln dann die neue Vorlage drinsteht, aber der Artikel nicht dementsprechend kategorisiert ist. Wenn die Artikel einigermaßen linear in die derzeitigen Tageskategorien einsortiert sind, werden erst so um den 10. Januar die letzten Alt-Bausteine entfernt. Die neuen Hinweise sind für Diskuseiten des alten Botlaufs völlig unbrauchbar. Es geht nicht, daß bis dahin Leute in die Irre geschickt werden. Für den neuen Botlauf muß jedenfalls eine eigene Bothinweisvorlage her. --Matthiasb –   (CallMyCenter) 23:33, 19. Nov. 2015 (CET)Beantworten
Ich habe deinen Beitrag jetzt mehrere Male sorgfältig gelesen, habe ihm aber keinen Sinn entnehmen können. Kannst du das bitte noch mal verständlich formulieren? – Giftpflanze 23:38, 19. Nov. 2015 (CET)Beantworten
(BK) @Matthiasb: Äh, Du scheinst da auch einiges nicht gelesen zu haben:
  • Die neue Meldung bekommt einen neuen Abschnitt auf der Disku, eine neue Vorlage mit neuem Hinweistext und daraus verlinkten Hilfeseiten mit neuem Inhalt.
  • Die Kategorisierung ist komplett neu/anders
  • Jeder Botlauf hat eine eigene, individuelle Kennung. Der geplante heißt 2015-10.
  • Die alten Meldungen von 2012 werden (soweit nicht menschlich zwischenzeitlich ergänzt) im gleichen Edit vom Bot entfernt
  • Es werden rund 2000 Meldungen aus 2012 bleiben, die durch individelle Kommentare ergänzt wurden. Die fasst der Bot nicht an.
  • @Boshomi: Die Datensammlung für den Nachfolgelauf hat schon begonnen. Diesmal hat es gedauert vom 1.9.-15.11. die Daten schreibfertig zusammenzustellen, also ist die Annahme, dass alle 10 Wochen ein neuer Run kommt, einigermaßen treffend.
  • Der nächste Lauf wird vermutlich nur noch genau die Diskuseiten ändern, bei denen sich Daten geändert haben (weitere defekte Links dazu, gefixte aus der Meldung raus etc.).
Die 2012er-Meldungen aufzuteilen nach letztem Bearbeitungsdatum ist natürlich auch nur eine Krücke um kleine Kategorien zu bekommen. De facto sind die Daten für alle Seiten gleich alt und ob die neueren Diskubearbeitungen in irgendeinem Zusammenhang mit der defekten-Link-Meldung stehen, ist völlig unklar. Mit solchen Datums-Kats lügt man sich schlicht in die eigene Tasche. Nichtsdestotrotz bleibt das Argument von Matthiasb richtig, dass nur kleine Kats zum Abarbeiten reizen. Nur sollte man dafür eine wirklich sinnvolle Unterteilung finden.--Mabschaaf 23:56, 19. Nov. 2015 (CET)Beantworten
Wenn 10 Wochen anscheinend das technische Limit sind, dann ist ein geplanter Rhythmus von konstant 13 Wochen kein so schlechter Wert. Wenn die selbe pageid exakt alle 91 Tage vom Bot bearbeitet wird (weil jedes mal ein neuer toter Link gefunden wird), und es wäre immer der $n. $Wochentag im Quartal. Nachvollziehbare Regelmäßigkeit schafft vertrauen.
@PerfektesChaos: Mit dem Modul en:Module:Page ist es mir auf Anhieb gelungen die Pageid der Artikelseite von einer Talk-Seite aus aufzurufen. Wäre schön, wenn man das noch in das Modul einbauen könnte. Der Wunsch nach manuell leicht bearbeitbaren Kategorien ist jedenfalls berechtigt.
Für die Sortierung innerhalb der Detail-Kategorie könnte man die Botkennung verwenden  Frohes Schaffen — Boshomi ☕⌨☺  00:59, 20. Nov. 2015 (CET)Beantworten
Das Limit sind eigentlich 2 Wochen. – Giftpflanze 01:06, 20. Nov. 2015 (CET)Beantworten
Der von mir vorgeschlagene 13-Wochenrhythmus ist nur ein Bauchgefühl, einigen Leuten ist das sicher zu langsam, anderen wird es zu schnell sein. Das Optimum läge dort, wo sich die Zahl der Leute, denen das zu schnell ist mit jenen, denen das zu langsam ist, in der Waage hält. Das vorgeschlagene Divisorverfahren wäre flexibel genug, um ohne gröbere Änderung im unterliegenden Katsystem, auf einen anderen Botrythmus umstellbar zu sein. Frohes Schaffen — Boshomi ☕⌨☺  08:27, 20. Nov. 2015 (CET)Beantworten

<nach BK, ausgerückt> Also langsam Schritt für Schritt, wir haben es hier mit zwei verschiedenen Aspekten zu tun. Der derzeitige Bothinweis ist in 90.000+ Diskuseiten eingetragen; er wird aus allen diesen entfernt, und der Bothinweis wird anhand des neuen Botlaufes neu generiert, richtig? Aber es wird eine Weile dauern, bis diese alten Bothinweise alle entfernt sind, richtig? Wenn die bestehende Vorlage aber auf die neuen Kategorien umgeändert ist, wie es PC bereits getan hatte (und was von mir revertiert wurde), dann verweisen diese auf bestimmte Kategorien, die für die alten Bothinweiseinbindungen nicht gelten, richtig? Der neue Bothinweis ist in Bezug auf die alten Vorlagenverwendungen also völlig irreführend, richtig? Daraus folgt, daß man für den neuen Botlauf eine neue Vorlage braucht, weil man für die alten Einbindungen die alte Vorlage solange braucht, bis sie nicht mehr verwendet wird. Und selbstverständlich verwendet man auch andere Kategorien und Unterkategorien. Das ist ein Aspekt.

Der andere Aspekt, und da sind sich Boshomi und ich noch nicht einig (das waren wir aber 2012 zunächst auch nicht), ist die Frage, wie man die Wartungskategorie sinnvoll unterteilt. Wartungskategorien, in denen tausende von Seiten stehen, tendieren dazu, nicht abgearbeitet zu werden. Nichts ist weniger motivierend, wie eine Kategorie mit 145.692 Einträgen, in denen nach fünf Stunden Arbeit noch 145.685 Einträge vorhanden sind. Es ist aber sehr motivierend, eine Kategorie mit 17 Einträgen in einer Session auf neun Einträge zu verringern und die Aussicht zu haben, diese Kategorie bis zum Wochenende vollständig zu eliminieren, richtig? Dahingehend sind Boshomi und ich uns einig. Nicht einig sind wir uns bislang, auf welche Weise man verdaubare Happen erzeugt. Du schneidest ja dein Schnitzel auch klein und schluckst es nicht als Ganzes. Wenn ich Boshomi richtig verstehe, will er anhand der Artikel-ID Unterkategorien schaffen, jeweils knapp 200, während ich lieber auf die zeitliche Komponente setze, indem jede Diskuseite in eine Tageskategorie der letzten Abspeicherung gesetzt wird. Initial sind das 7200 Seiten, diese wird wie eine Bugwelle auf zunächst 7500 Seiten anwachsen und dann kontinuierlich abnehmen. Die Erfahrung zeigt, daß es ungefähr drei Jahre dauert, bis 95 Prozent oder so der ursprünglichen Artikel in einer Kategorie entweder bearbeitet sind oder, weil halt auch andere Bearbeitungen von Diskuseiten stattfinden, in eine spätere Kategorie umsortiert sind. Warum ist das sinnvoll? Weil einerseits es wahrscheinlich ist, daß Diskuseiten mit Verkehr zu "aktiven" Artikeln gehören – hier ist es (nach Ende des Botlaufes) wahrscheinlicher, daß Bothinweise bereits obsolet sind, weil in aktiven Artikeln defekte Links auch im Rahmen der laufenden Bearbeitung beseitigt werden, auch ungeplant, etwa durch Textänderungen. Es besteht also eine bestimmte Wahrscheinlichkeit, daß einzelne Hinweise sich erledigt haben, ohne daß sie vom Bearbeiter als erledigt markiert wurden. Andersherum bei lange unbearbeiteten Diskuseiten. Bei Artikeln ohne Traffic auf der Diskussionsseite ist es ziemlich wahrscheinlich, daß der Artikel selbst auch ungepflegt ist, also wahrscheinlich weitergehende Mängel hat, die über das Problem defekter Weblink hinausgehen, etwa daß die Artikel auch inhaltlich veraltet sind. Das bedeutet, daß es sinnvoll ist, wenn sich einzelne Portal und Redaktionen gezielt Artikel vornehmen, deren Diskuseite länger unbearbeitet geblieben ist. Aus dem alten Botlauf liegt für die meisten Tageskategorien aus 2012 die Artikelzahl im Bereich 10 bis 25, teilweise ist sie schon einstellig. Ich gehe davon aus, daß die 2012er-Tageskategorien ohne den bevorstehenden Botlauf bis zum Jahresende weitgehend eliminiert gewesen wären. (Ich finde, das ist ein toller Erfolg.) --Matthiasb –   (CallMyCenter) 00:17, 20. Nov. 2015 (CET)Beantworten

Über die Größe der Detailkategorien kann man ja reden. Der Divisor sollte ein Vielfaches des Bot-Rhythmus sein, damit die Kategorien nicht zufällig sondern mit einem exakt vorhersehbaren Termin vom Bot bearbeitet werden. Bei 91 Tagen, hätte man 13 Wochen Zeit eine Kat zu bearbeiten, bis der Bot sie am ersten Tag der 14. Woche wieder mit neuen Treffern befüllt.  Frohes Schaffen — Boshomi ☕⌨☺  00:59, 20. Nov. 2015 (CET)Beantworten
Hm, dann könnte man bspw. mit Kategorien arbeiten, die sich nicht am absoluten Datum orientieren, sondern am Kalendertag, also bspw. die Kategorie:Wikipedia:Defekter Weblink Bot/20. November, also die heutige Kat in genau einem Jahr wieder verwenden. Allerdings wäre das ja nur ungefähr, da die Zahl der Artikel ja stetig wächst; rechnerisch müßte der Bot bei geichbleibender Quote von Artikeln mit defekten Weblinks im Laufe der Zeit immer schneller arbeiten, um die identische Zahl von Artikeln pro Quartal zu bearbieten. Aber das wäre ja egal, es gibt ja keinen Sachzwang, daß Artikel 08fuffzehn stetig in derselben Kalendertag-Kategorie bliebe. --Matthiasb –   (CallMyCenter) 03:41, 20. Nov. 2015 (CET)Beantworten
Mit einem konkretes Datum würde ich nicht Detailkategorien, sondern die dazugehörige Oberkategorie schreiben. Dort ist man dann flexibel mit der Berechnung, und kann die Datumsangaben an den Gregorianischer Kalender anpassen.(hint:UNIX-Timestamp) Damit wäre man dann auch in der Lage die Kats neu einzusortieren, falls man sich auf einen anderen Botrhythmus einigt. Frohes Schaffen — Boshomi ☕⌨☺  08:27, 20. Nov. 2015 (CET)Beantworten

Ich halte eine Unterkategorisierung nach Bot-Edit-Datum für völlig unsinnig, weil es keinerlei Zusammenhang mit dem Artikel (und um den geht es doch!) gibt. Zum einen sind die Botedits immer auch von technischen Gegebenheiten (wie Stabilität auf Toollabs) abhängig und zum anderen sagt der letzte Edit auf der Disku mM genau Null über den Pflegezustand eines Artikels aus. Diese Art der Datumskategorisierung war eine nachträglich implantierte Krücke, weil mit dem 2012er-Lauf einfach nichts mehr anderes machbar war, nachdem schon alle Meldungen auf der Disku waren. Aber einem im Koma liegenden Pferd neue Hufe zu verpassen, bringt nicht schneller ins Ziel.

Geht doch bitte einfach noch mal über Los, fangt noch mal vorne an: Welche Unterteilung wäre denn wirklich inhaltlich sinnvoll? Dann muss man schauen, ob das technisch machbar ist. 2015 haben wir LUA, da geht viel mehr als früher. Da nun die komplette Meldung auf der Disku mit allen Daten in der Vorlage gekapselt ist, geht auch nachträglich noch deutlich mehr. Nur mal als Idee: Wenn Kopplung an ein Datum, dann doch eher an das Datum (bzw. Monat/Jahr) des letzten Edits des Artikels als das Datum des Botedits auf der Disk. --Mabschaaf 09:37, 20. Nov. 2015 (CET)Beantworten

  • Ziel sollte es sein, die Unterkategorisierung auf ein menschliches Niveau zu bringen. Kats mit 360000 Seiten sind nur noch technisch bearbeitbar, Menschen verzweifeln daran.
  • für die fachliche Aufteilung haben wir den Merlbot. Das ist ein bewährtes Verfahren, hat aber den Nachteil, dass viele Kategoriebäume auf diese Weise unbearbeitet liegen bleiben.
  • Das von mir vorgeschlagene Divisorverfahren hat die Eigenschaft, das die einzelnen Kats nicht mit Datum im Kategorienamen angelegt werden können. Sinnvoll ist hier nur eine Laufnummer. Allerdings könnte man die Laufnummer auf ein Datum hochrechnen, und damit Oberkategorien erstellen, die einen Art Terminkalender darstellen. Bei einem Divisor von 2184 hätte eine mittlere Kat ca 165 Seiten, und die Einteilung wäre stabil für jeden Botryhthmus der sich aus den Faktoren 2,3,4,7,8 oder 13 zusammen setzt. Bei wochenbasierten Rhythmus stünden dann 1, 2, 3, 4, 6, 8, 12, 13, 24, 26, 39, 48, 52,...Wochen für die Wiederholungsfrequenz zur Auswahl. Bei einer Änderung des Rhythmus bräuchte nur eine Formel in den Oberkategorien angepasst werden.  Frohes Schaffen — Boshomi ☕⌨☺  11:39, 20. Nov. 2015 (CET)Beantworten
Und was spricht jetzt konkret dagegen, wie bisher nach dem Datum der letzten DS-Abspeicherung zu kategorisieren? Oder gibt es eine Möglichkeit, das letzte Artikeleditdatum heranzuziehen? --Matthiasb –   (CallMyCenter) 21:07, 20. Nov. 2015 (CET)Beantworten
Das ist eine recht unstete Angelegenheit. Wenn jemand wegen irgend eines Satzzeichens einen Eintrag auf der Disk macht, ist die Kategorie schon eine andere. Wenn der Botlauf regelmäßig wird, dann ist das Datum nicht mehr viel wert. Daher auch der Vorschlag die Kategorien nach einem statischen Verfahren anzulegen, und nach der sich über die Zeit verändernden Botkennung zu sortieren.
Zusätzlich kommt noch hinzu, dass der erste Lauf die Pageid von unten nach oben durchläuft. Damit wären die erste Kategorien systematisch mit sehr alten Artikeln befüllt. Sowas kann Vorteile haben, ich tendiere aber dazu, die Kategorien nach einem Verfahren befüllen zu lassen, das nahe einer Zufallsverteilung kommt, um jeden Artikel die gleiche Chance zu geben gefixt zu werden und sich die gefixten Seiten gleich über den ganzen Artikelbestand verteilen. Frohes Schaffen — Boshomi ☕⌨☺  21:30, 20. Nov. 2015 (CET)Beantworten

Übergang für alte, nicht-Bot-entfernbare Meldungen

Bearbeiten

Nachdem die Umstellung der Hinweisbox für die 2012-Meldungen wegen der gleichzeitig entfallenden Kategorisierung nach altem System noch nicht akzeptiert ist, folgender Kompromissvorschlag:

  • Es wird rund zwei Monate parallel Diskuseiten mit alten und andere mit neuen Meldungen geben
  • Parallel dazu werden Diskuseiten mit alten und neuen Meldungen existieren - und zwar solche, bei denen der Bot die alten nicht abräumen kann
  • Die alten Meldungen landen - solange sie auf den Diskus stehen - in den alten Kategorien; die neuen Meldungen haben davon abweichend neue, komplett unterschiedliche Kategorien

@Matthiasb: Könnten wir uns darauf verständigen, dass der Bot bei allen 2012er-Meldungen, die er nicht entfernen kann, im Rahmen des Schreibens der neuen Meldungen seinen alten Botbaustein austauscht, sprich

  • {{Defekter Weblink Bot|Gift Bot}} ändert in {{Defekter Weblink Bot/Outdated}}?
  • Der auf {{Defekter Weblink Bot/Outdated}} hinterlegte Text kann ja ggf. noch verbessert/präzisiert werden.
  • Alle Diskus, die die /Outdated-Vorlage haben, werden auch gleichzeitig eine neue Meldung erhalten, die Kategorisierung erfolgt also dort zweigleisig:
  • Damit ist die Anleitung zum Reparieren weg, und der neue Text stimmt mit den tatsächlichen Gegebenheiten überein. Auch für die Übergangsphase sind alle Meldungen, die Beschreibungen dazu und die Kats konsistent.

@Giftpflanze: Würdest Du das technisch hinkriegen?--Mabschaaf 19:15, 20. Nov. 2015 (CET)Beantworten

Ähm, so kurz vor Start noch so eine große Änderung? Lieber nicht. Außerdem gibt es gar nicht so viele DS mit doppelten Meldungen. – Giftpflanze 19:45, 20. Nov. 2015 (CET)Beantworten
Ich verstehe das Problem nicht so richtig. Legt für den neuen Botlauf eine neue Bothinweisvorlage mit den neuen Kategorien an, wie sie bisher geplant waren, gegen die sachliche Sortierung an sich gibt es ja keinen Einwand, und die Datumssortierung kommt dazu. Die paar Tausend Artikel mit der alten Vorlage, die bis zum Ende des Botlaufes noch regulär abgearbeitet werden, erledigen sich von selbst. Bei Artikeln, bei denen der Bot die alte Hinweisvorlage entfernt und die neue Seite setzt, gibt es nix zu klären. Bei den Artikeln, bei denen die alte Hinweisvorlage zunächst bleibt, ändert sich gar nix. Da noch in die Vorlage Kategorie:Wikipedia:Defekter Weblink/veraltet (oder irgendwas in der Art) reinzuschreiben, sollte auch kein Problem sein. Dann braucht Giftpflanze auch nix groß zu ändern, nur den Namen der zu schreibenden Vorlage. (Oder denke ich zu einfach?) --Matthiasb –   (CallMyCenter) 21:19, 20. Nov. 2015 (CET)Beantworten
Jein, es geht um den angezeigten Text der bisherigen Meldung. Den hatte PC mit dieser Änderung "schlafen" gelegt - und gleichzeitig die alte Kategorisierung gekillt. Wir können uns auch darauf einigen, dass die Kats bleiben, aber der auf der Disku sichtbare Text diesem oder jenem entspricht. Vielleicht kriegen wir das ja ohne EW hin.--Mabschaaf 21:29, 20. Nov. 2015 (CET)Beantworten
@Matthiasb: Spricht etwas gegen die Änderung des angezeigten Textes (diesmal ohne Änderung der Kategorisierung)? Ich würde das heute, spätestens morgen früh gerne machen.--Mabschaaf 17:57, 21. Nov. 2015 (CET)Beantworten

Ich habe kein Interesse, einen Editwar zu führen, schrob ich ja schon oben ;-) Gibt es denn Gründe, warum "ihr" euch dagegen sträubt, für den neuen Botlauf eine neue Hinweisvorlage (etwa Vorlage:Defekter Weblink Bot/2015) zu verwenden? Dadurch würden die Übergangsschwierigkeiten umgangen, und es könnten die gewünschten neuen Kategorien gesetzt werden, ohne die negativen Auswirkungen auf den Wartungsbausteinwettbewerb. Und wenn man in die "neue" Vorlage dann auch
<includeonly>{{#ifeq:{{NAMENSRAUMNUMMER}}|1|<span style="display:none">[[Vorlage:Defekter Weblink Bot/Wartung/Link{{{1|}}}]]</span>{{#ifexist:{{HAUPTSEITE}}||<span style="display:none">[[Vorlage:Defekter Weblink Bot/Wartung/Archiv]]</span>[[Kategorie:Wikipedia:Defekter Weblink Bot/Archivbot]]}} [[Kategorie:Wikipedia:Defekter Weblink Bot/{{VERSIONSJAHR}}-{{VERSIONSMONAT}}-{{VERSIONSTAG2}}]] [[Kategorie:Wikipedia:Defekter Weblink Bot/{{VERSIONSJAHR}}-{{VERSIONSMONAT}}]] [[Kategorie:Wikipedia:Defekter Weblink Bot/alle]] }}</includeonly></onlyinclude>
übernimmt, dann würde auch die Tageskategorisierung beibehalten, die (nicht nur) mir wichtig ist, um verträgliche Häppchen zu erzeugen. (Boshomis Divisorenvariante überzeugt mich nicht, weil sie beide Zeiteffekte unberücksichtigt, daß nämlich sehr lange nicht bearbeitete Artikel tendenziell noch weitere Mängel aufweisen und in stärker aktiven Artikel Hinweise auf einen toten Link mit einer höheren Wahscheinlichkeit durch reine Artikelarbeit obsolet werden, ohne daß auf der Diskuseite eine Erledigung vermerkt wird.)
Abgesehen davon, daß es sich künftig als nützlich erweisen könnte, wenn durch Jahreszahl oder einen anderen Identifikator unterschiedene Bothinweisvorlagen bei einzelnen Botläufen individualisiert vorzugehen. Und damit auf Eventualitäten reagiert werden kann, an die derzeit keiner von uns denkt. Für Giftpflanzes Bot dürfte es ja egal sein, wie die Vorlage heißt. --Matthiasb –   (CallMyCenter) 19:19, 21. Nov. 2015 (CET)Beantworten

@Matthiasb, dieser Botlauf hat überhaupt gar keinen negativen Einfluss auf den laufenden Wettbewerb, ich kann als Schiedsrichter durchaus beurteilen wann ein defekter Link ersetzt wurde. Ob das nun als Baustein auf der Disk stand oder ob es jemand so feststellt ist mir dabei eigentlich egal, denn diese Art von Miniverbesserungen dürfen sowieso nicht zu einem Artikelausbau genutzt werden, dafür muss ein richtiger Baustein im Artikel vorhanden sein und die Mängel sollten entfernt werden. Versuche bitte nicht so etwas als Argument vorzuschieben. Niemandem wird im WBW dadurch ein Nachteil entstehen. Zudem arbeiten wir dort auf Vertrauensbasis. --Liebe Grüße, Lómelinde Diskussion 19:34, 21. Nov. 2015 (CET)Beantworten
@Matthiasb: Es wird eine neue Vorlage genutzt, {{Defekter Weblink}} - das steht auch so in Wikipedia:Defekte Weblinks/Botmeldung#Bot2015. Über die Kategorisierung kann ich nichts sagen, die erfolgt im LUA-Modul.--Mabschaaf 21:51, 21. Nov. 2015 (CET)Beantworten
@Lomelinde: Tu uns allen den Gefallen und mache das, was du vor einiger Zeit angekündigt hast, auch weiterhin: einen großen Bogen um mich. Wenn du mich nicht weiter belästigst, tut das uns allen gut. Abgesehen davon ist, daß du irgendwo beteiligt bist, bereits Grund genug, dem ganzen das Vertrauen zu entziehen. Ich habe jedenfalls keine Lust, mit dir überhaupt in dieser Angelegenheit zu diskutieren. —
@Mabschaaf:: Prima, dann sind wir uns ja einig: die bisherige Bothinweisvorlage samt der Kategorisierung bleibt bis auf weiteres erhalten, und für die neue Vorlage wir die Tageskategorisierung noch implementiert, ob nun herkömmlich oder per Lua-Modul ist mir dabei ganz egal. --Matthiasb –   (CallMyCenter) 22:27, 21. Nov. 2015 (CET)Beantworten
Naja, ich persönlich halte diese Art von Kategorisierung für Murks (wie oben schon ausgeführt), aber mir sind sie schlicht schnuppe. Da halte ich mich raus.--Mabschaaf 22:33, 21. Nov. 2015 (CET)Beantworten
Das hatte ich ja auf WD:K bereits ausführtlich erklärt, warum ich diese Sortierung für sinnvoll halte, also werde ich es hier nicht noch einmal aufwärmen. --Matthiasb –   (CallMyCenter) 22:50, 21. Nov. 2015 (CET)Beantworten
Werter Matthiasb, ich lasse mir von dir nicht vorschreiben wo ich etwas schreiben darf und auch nicht den Mund verbieten. Hör bitte auf so zu tun als stünden Millionen Benutzer hinter dir oder deiner subjektiven Einstellung, sprich für dich und nur für dich und nicht für andere, die dich nicht darum gebeten haben deine Meinung als die ihre aufgedrückt zu bekommen. Du gibst mir ja keine Chance dazu einen großen Bogen um dich oder deine Edits zu machen, sonst hättest du dich wohl kaum beim WBW eingetragen, zudem bewusst provokativ, weil du weißt, dass mich der Namen „Vandale am Werk“ stört, mit so etwas sollte man sich nicht rühmen es ist eher beschämend. Die von dir befürchteten Probleme sind gänzlich ausgeblieben, im Gegenteil es wurden nach dem Botstart schon einige Neufälle von defekten Weblinks im WBW eingetragen. Soviel zu deinem allwissenden Durchblick. Deine Argumente sollten schon etwas überzeugender sein, wenn du möchtest, dass du ernst genommen wirst. --Liebe Grüße, Lómelinde Diskussion 11:48, 22. Nov. 2015 (CET)Beantworten

Bot-Bearbeitungskommentar?

Bearbeiten

@gifti, ich wüsste gern einen signifikanten Textteil des Bot-BK, um ihn von Archivierungen auf der Artikeldisk unterscheiden zu können. LG --PerfektesChaos 23:05, 27. Okt. 2015 (CET)Beantworten

"Bot: 1 defekter Weblink", "Bot: 2 defekte Weblinks", etc. – Giftpflanze 13:25, 28. Okt. 2015 (CET)Beantworten
Danke; dann orientiere ich mich an der Zeichenkette defekt, und solang du die nicht beim Archivieren nimmst und sie immer bei Weblinks vorkommt, ist sie „idiosynkratisch“. LG --PerfektesChaos 13:31, 28. Okt. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)

Stellt der Bot SLA?

Bearbeiten

Laut Beschreibung räumt der Bot alte Bot-Meldungen ab. Was passiert, wenn dadurch eine Disk ganz geleert wird? Stellt der Bot SLA? 92.75.209.91 22:28, 3. Nov. 2015 (CET)Beantworten

Das ist bisher nicht vorgesehen/implementiert. Und das würde auch nur Sinn machen, wenn die Versionsgeschichte nur die Meldung betrifft. Das ist (außer in ganz einfachen Fällen) logisch nur schwer zu erfassen, imho. – Giftpflanze 22:49, 3. Nov. 2015 (CET)Beantworten
Aber eventuell könnte der Bot die Seite irgendwie markieren, sodass ein menschlicher Benutzer drüberschauen kann? 129.13.72.198 09:22, 4. Nov. 2015 (CET)Beantworten

Diese Frage stellt sich mir auch da ich solche Karteileichen oftmals selbst zur Löschung anfrage. Es wäre natürlich gut, wenn der Bot es könnte. Beispiel diese gerade gelöschte Disk. Und wo ich gerade hier bin auch dieser Link ist defekt, ebenso, auch der, not found, nf, habe ich alle mal hier gefunden, weil ich die komplette Adresse nicht mehr weiß. Zumindest eine Markierung oder Auflistung wäre irgendwie hilfreich, bisher konnte ich es mithilfe des Tools sehen, wenn da ein Eintrag auf der Disk stand den ich eventuell löschen lassen könnte, wenn der Bot diesen aber entfernt, dann sehe ich das nicht mehr, dass es dort mal eine Eintrag gab. Das ist aber eigentlich auch nicht wirklich schlimm, bleibt halt eine blaue Disk ohne Inhalt zurück. So etwas müsste sich doch prüfen lassen. Irgendwie so

if VG = true and Seiteninhalt = 0 Bytes
than get Lemma and write it in Fehlerliste "Leerseite prüfen"

Eigentlich ging mir diese Frage nämlich auch gerade durch den Kopf. --Liebe Grüße, Lómelinde Diskussion 19:35, 18. Nov. 2015 (CET)Beantworten

Es gibt schon Benutzer:Kulac/leere disks - ist nur nicht mehr besonders aktuell, könnte aber sicher aktualisiert werden.--Mabschaaf 20:03, 18. Nov. 2015 (CET)Beantworten
Minutenaktuell wäre: shortpages
Gern zu Diensten: deleteShortpages
LG --PerfektesChaos 21:05, 18. Nov. 2015 (CET)Beantworten
Ich dachte mir doch, dass es so etwas gibt. Ich schaue es mir mal an, wenn ich dafür etwas Zeit (kommt selten vor, dass ich diese nicht habe) erübrigen kann. Vielen Dank für die Links. --Liebe Grüße, Lómelinde Diskussion 08:25, 19. Nov. 2015 (CET)Beantworten
Ich bin mir nicht sicher, ob Du da ohne Löschknopf viel machen kannst. Evtl. ist aber Benutzer:GiftBot/Meldungen für Dich interessant: Das sind menschlich kommentierte Botmeldungen, die der Bot definitionsgemäß nicht mehr anfassen darf, die man aber möglichst abräumen sollte. Erfordert aber sicher ein wenig Fingerspitzengefühl. Zumindest kann man schadlos, wo noch aktiv, die verlinkten URLs in nowiki-Tags einschließen und damit für die Weblinksuche unsichtbar machen. --Mabschaaf 08:33, 19. Nov. 2015 (CET)Beantworten
Eigentlich kann ich Listen gar nicht ausstehen. Derzeit ist →Wettbewerbszeit, zudem wollte ich mich auch noch um eine andere Anpassung (H:BEO) kümmern, weil die Änderung demnächst lifegeschaltet wird.
Def-Bot-Meldungen mache ich nur ab und an im Zuge der Wartung mit, damit die Konkurrenz (Team Phönix) auch in den WBW-Pausen nicht arbeitslos wird.    Oder anders, wenn mir das Tool eine Meldung anzeigt und es sind nur ein- bis zwei defekte Links, dann markiere ich sie im Artikel, lösche den Diskeintrag und die Defekte werden zeitnah repariert. Da funktioniert sehr gut und ist etwas, was ich mit dem Begriff „Teamarbeit“ verbinde.
Ich kann diverse SLAs stellen, dafür benötige ich keinen Löschknopf, eine Liste könnte ich hingegen an einen „Admin meines Vertrauens“ weiterreichen, damit er das quasi gesammelt abräumen kann. Das erspart evtl. doppeltes Prüfen.
Ich muss mal schauen wie oder ob ich da überhaupt mehr machen möchte als bisher. --Liebe Grüße, Lómelinde Diskussion 08:51, 19. Nov. 2015 (CET)Beantworten

@Lómelinde:

  • Wenn du in diesem Bereich nächstes Jahr etwas tun möchtest, dann wäre das Folgendes:
    1. Die Vorlageneinbindung durch einen erläuternden Standardtext ersetzen, dass hier 2012 von einem Bot etwas hingeschrieben wurde.
    2. Alle URL müssten genowikit werden, wenn da schon seit einem Jahr niemand mehr was kommentiert hatte und keine URL mehr anklicken muss. Grund: Die Weblinksuche soll nicht zu einer Domain lauter automatisch generierten Schrott bis in alle Ewigkeit liefern. Mit C&P kann trotzdem jeder in seinem Browser die verreckte URL ansprechen.
    3. Die Überschrift könnte in den Namen einer einzelnen Domain geändert werden, damit sie nicht mehr von den aktiven Bot-Abschnitten ablenkt und mit diesen verwechselt würde.
    4. Wenn es nur die Info war, dass man eine vergeichbare URL gefunden hatte, dann kann es auch ganz weg. Ich habe ein Ei gelegt; ja, danke, aber nach einem Jahr ist auch das gegessen.
  • Idealerweise würde Mitte nächsten Jahres damit begonnen werden, alle Einbindungen der 2012er Vorlage aufzulösen, so dass diese gelöscht werden kann.
  • SLA kosten nur Extra-Arbeit; die leeren oder ultrakurzen Artikeldisk sind bekannt und werden am Hundert ohne SLA abgearbeitet.

LG --PerfektesChaos 12:30, 19. Nov. 2015 (CET)Beantworten

Habe ich etwas falsch verstanden? Ich dachte ihr lasst den Bot einmal quer durch die Diskussionsseiten laufen und er löscht dann alle alten Meldungen, also jene, wo ein Defekt schon repariert wurde. Ich stecke da nicht wirklich im Detail drin, arbeite nur Boshomi ein wenig zu, wenn ich es sehe. Und ich weiß nicht wirklich ob ich das (2–4) jetzt verstanden habe was du versuchst mir nahezubringen. Wo sollen die nowiki-tags hin, auf die Disk? Was soll kommentiert worden sein? Ich habe wohl zu tief in das Trinkhorn geschaut, ich stehe gerade mächtig auf dem Schlauch. Es eilt aber alles nicht, versuche es am besten mit einem Beispiel, das kann ich leichter verstehen als „Namen einer einzelnen Domain“ Hmmm also Überschrift = „Der Spiegel-url war defekt“? Ich lese ehrlich gesagt nicht einmal den Hinweistext des Boteintrags wirklich durch  Vorlage:Smiley/Wartung/rot , weil ich denke, die Weblinkwarter werden sich sicherlich darum kümmern. Wer so etwas täglich macht, der muss nicht jedes mal erneut suchen was er/sie wo melden sollte. Wenn ich dann verstanden habe was du möchtest, werde ich es versuchen zu berücksichtigen. --Liebe Grüße, Lómelinde Diskussion 12:49, 19. Nov. 2015 (CET)Beantworten
Mitte nächsten Jahres werden die Trivialfälle durch den Bot selbst gelöscht worden sein.
Das sind diejenigen Abschnitte, in die nur der Bot geschrieben hat, und seine Signatur den Abschnitt abschließt.
Übrig bleiben diejenigen Abschnitte, in denen ein Mensch dem Bot geantwortet hat, eine Domain kommentiert hatte oder einfach nur druntergeschrieben hatte: „Habe ich jetzt repariert.“
Hier muss menschlich entschieden werden, ob der Abschnitt für zukünftige Generationen erhaltenswert ist und wertvolle Beiträge enthält, oder gemäß WP:DS entfernt werden kann. Wenn er bleiben soll, dann wie oben beschrieben umgestalten.
Auf jeden Fall sollten die URL auf der Disk nicht mehr wirksam sein. Die nowiki-Tags direkt um die URL auf der Disk, damit es keinen Suchtreffer für die Domain mehr gibt.
LG --PerfektesChaos 12:59, 19. Nov. 2015 (CET)Beantworten
Ach so, o.k. das habe ich jetzt verstanden. Dankeschön. --Liebe Grüße, Lómelinde Diskussion 13:22, 19. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)
Bearbeiten

Wird die Kategorie geleert (also die Kategorie aus der alten Vorlage rausgenommen), bevor der neue Botlauf beginnt? Ist sonst irgendwie verwirrend, wenn in der Kategorie sowohl alte als auch neue Einträge drin sind. 129.13.72.198 13:35, 5. Nov. 2015 (CET)Beantworten

Einige Tage vor Beginn der Verteilung auf die Diskussionsseiten wird die bisherige Programmierung durch BETA ersetzt, so dass dann die bisherige Kategorieauslösung nicht mehr existiert. LG --PerfektesChaos 13:58, 5. Nov. 2015 (CET)Beantworten
Ich habe das revertiert. Das ist nicht sinnvoll, da es wochenlang dauert, bis der alte Bothinweis aus allen Diskuseiten entfernt ist. In tausenden von Artikeldiskuseiten stünden dementsprechend lange falsche, irreführende Hinweise. Siehe Diskussionsseite. --Matthiasb –   (CallMyCenter) 23:42, 19. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)

Bot: Bearbeitungskommentar (Verlinkungen)

Bearbeiten

Mal ganz dusslig gefragt: Wird der Bearbeitungskommentar des Bots auch ein Wikilink auf

[[Wikipedia:Defekte Weblinks/Botmeldung]]
enthalten?

LG --PerfektesChaos 12:34, 18. Nov. 2015 (CET)Beantworten

Bislang nicht. — Giftpflanze 13:54, 18. Nov. 2015 (CET)Beantworten
Na, ich denke, mit dem nachfolgenden wären die Autoren auf VG und Beo dreimal gut verlinkt:
/* Defekter Weblink */ [[Wikipedia:Defekte Weblinks/Botmeldung]] ([[Wikipedia:Defekte Weblinks/Bot2015-Problem|Problem?]])
LG --PerfektesChaos 23:55, 18. Nov. 2015 (CET)Beantworten
Wenn es dich glücklich macht. Sieht jetzt so aus: Bot: x defekte(r) Weblink(s) (Problem?) [ggf.: – voriger Benutzer, Zeitstempel, Kommentar] – Giftpflanze 09:33, 19. Nov. 2015 (CET)Beantworten
Mein persönliches Glück ist nachrangig, es wird aber zumindest nicht dadurch vermindert, dass es Horden desorientierter Autoren gäbe, die nicht wissen und wissen können, worum es geht, und dann wild um sich schlagen und beißen.
  • Es ist immer gut, den bislang letzten und mutmaßlich menschlichen Edit zu erwähnen, da es ja Leute gibt, die auf der Beo immer nur den aktuellsten Edit pro Seite sehen und die Bots nicht ausgeblendet haben.
  • Die URL-Anzahl anzugeben ist auch eine gute Idee; wobei ich hoffe, dass das anspornend wirkt (ein Weblink, oder zwei? ach die fixe ich jetzt mal schnell eben) und nicht demotivierend – Waas? Stücker 23? Nee, die bleiben jetzt so wie sie sind.
  • Das /* Defekter Weblink */ vorangestellt bewirkt auf Beo und VG ein Direktlink auf den Abschnitt, falls du die Bytes noch hättest. Würde aber von der Länge des letzten BK abhängen; mal ja, mal nein. Könnte man aber auch einfach das truncating eines hintenraus zu langen BK dem Wiki-Server überlassen.
LG --PerfektesChaos 12:16, 19. Nov. 2015 (CET)Beantworten
OK, genau so wie von dir vorgeschlagen für gut befunden und umgesetzt. – Giftpflanze 20:27, 19. Nov. 2015 (CET)Beantworten

@Giftpflanze: Könntest Du noch "– zuvor" oder noch besser "– letzte Bearbeitung:" dazwischen schreiben? Also aus

  • ‎ (→‎Defekte Weblinks: Wikipedia:Defekte Weblinks/Botmeldung (Problem?) – Emergency doc, 12.11.2015 22:21:30 CET, Schützte „Diskussion:Automobil“: Wiederkehrender Vandalismus ([Bea…)

sollte werden:

  • ‎ (→‎Defekte Weblinks: Wikipedia:Defekte Weblinks/Botmeldung (Problem?) – letzte Bearbeitung:Emergency doc, 12.11.2015 22:21:30 CET, Schützte „Diskussion:Automobil“: Wiederkehre…)

Viele Grüße --Mabschaaf 10:27, 22. Nov. 2015 (CET)Beantworten

OK – Giftpflanze 10:28, 22. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)


Können wir immer noch starten?

Bearbeiten

Oder gibts noch Diskussionsbedarf (siehe umseitig)? Ansonsten lass ich meinen Bot am Sonntag ab Mitternacht mit 1 Edit/Viertelstunde loslegen. – Giftpflanze 18:18, 20. Nov. 2015 (CET)Beantworten

Die Diskussion um die Detailkategorien macht keinen Unterschied. Die kann man auch noch Tage nach Beginn des Laufs komplett umkrempeln. Wenn da noch Benutzerwünsche kommen, dann setzt man sie eben so gut es geht um. (Das hat aber auf die Programmierung des Bots keinen Einfluss). It's a wiki! :-)(nicht signierter Beitrag von Boshomi (Diskussion | Beiträge) 18:35, 20. Nov. 2015 (CET))Beantworten
+1 --Mabschaaf 18:56, 20. Nov. 2015 (CET)Beantworten
Zeit für Sitenotice.
Äh, Sonntag morgen 00:01 … 00:15 … (oder Sonntag abend, 23:59 … Montag 00:15 ???)
Gutes Gelingen --PerfektesChaos 19:13, 20. Nov. 2015 (CET)Beantworten
Hm, Sitenotice? Was soll da noch neues Drinstehen? Nervt die nicht mehr, als sie bringt? Zumindest solange der Bot nur mit 1/15min läuft, würde ich darauf noch verzichten.--Mabschaaf 19:19, 20. Nov. 2015 (CET)Beantworten
Wenn es gutgeht, dann entscheiden wir Sonntag (oder doch Montag???) früh um 02:05, dass alles geklappt hat, oder Sonntag morgen um 08:30 oder 10:15 oder was.
Und dann heißt es: Volldampf voraus.
Und wer dann nicht vorher informiert war und den Kurier nicht abonniert hat, der könnte kalt erwischt werden.
Und hätte Zeit haben sollen, um sich stressfrei mit Tools und Anti-Bot-Einstellungen zu wappnen.
Deshalb steht das hier im Zeitplan in der Tabelle ganz oben. Das war eine der Lehren aus 2012. WP:Sitenotice bis Dienstag/Mitwoch oder so.
Nebenbei: WP:DWL ist noch alt?
LG --PerfektesChaos 20:09, 20. Nov. 2015 (CET)Beantworten
Sitenotice ist drin, WP:DWL aktualisiert. Fehlt noch irgendwas?--Mabschaaf 12:43, 21. Nov. 2015 (CET)Beantworten
Ja, Wikipedia:Defekte Weblinks/Bot2015-Problem.
Ansonsten bis um Mitternacht?
LG --PerfektesChaos 20:51, 21. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)


Monitoring

Bearbeiten

Ausgehend von Diskussion:André Glucksmann, fehlt mir derzeit der Überblick, auf welcher Seite welcher Link gefunden wurde, und welche bereits gelöst wurden. Eine große Hilfe wäre, würde die Vorlage für jede gefundene tote URL einen versteckten Link ausgibt, der genau alle URLs mit einer Praefix ausgibt. Mit Hilfe der Weblinksuche, könnte man dann sehr effizient gefundene Lösungen auf andere Artikel übertagen. Vorschlag: Die tote URL im Artikel sei http://example.org/toterLink ($URL). Für diese $URL sollten in der Weblinksuche folgender Link ausgegeben werden:

  • $URL im Artikel ungefixt: http://toteURL.botlauf.giftbot.invalid/$URL

* $URL im Artikel gefixt: http://fixedURL.botlauf.giftbot.invalid/$URL (zumindest solange die Vorlage auf der Disk steht) Ich bin grundsätzlich für jede Lösung offen, solange man sinnvolle Lösungen von anderen Benutzern findet, und diese auf andere Artikel übertragen kann.

Siehe dazu auch den Beitrag von Merlissimo spezial:diff/148241272.

Die Möglichkeiten zum Monitoring sollten jedenfalls in die Doku auf WP:DWL. (Dieses Thema ist kein Blocker für den geplanten Lauf, da man alles Notwendige mit Boardmittel auch nachträglich erreichen kann.)  Frohes Schaffen — Boshomi ☕⌨☺  12:08, 21. Nov. 2015 (CET)Beantworten

Auf der Diskussionsseite werden die erledigten Angelegenheiten gelöscht und nicht auf Jahre hinaus immer riesigere Müllhalden automatisch generierten Datenschrotts gesammelt; die Diskussionsseiten sind zur Besprechung inhaltlicher Angelegenheiten da und kein Beo-Belästigungsplatz für ausnahmsweise einmal ausgeführte Bot-Aktionen. In die von den Autoren beobachteten Diskussionsseiten wird auch nicht permanent irgendwelcher Quark hineingeschrieben, den niemand liest und niemand wissen will, sondern jetzt einmalig mit Ankündigung; und damit erstmal Schluss. Die Diskussionsseiten sind keine Datenmülldeponie für Tools; dazu gibt es Datenbanken unter wmflabs, die sich abfragen lassen.
Wenn du über verteilte URL etwas wissen möchtest, musst du Gifti fragen.
Wer über den Schnee vom vergangenen Jahr etwas wissen möchte, muss in die VG von Artikel und Disku sehen. Dazu haben wir sie schließlich.
Wer wissen möchte, wie der Artikelbestand vor drei Monaten, sechs Monaten oder zwei Jahren mal ausgesehen hatte, der muss sich Dumps herunterladen, privat abspeichern, und kann sie sich dann nach Herzenslust durchsuchen.
Die a.a.O. thematisierten „eventuellen gleichartigen Links“ gehören zum Standardprogramm und stehen auf jeder beteiligten Diskussionsseite mit dabei. Das Betrachten der Beispiele auf BETA oder gar das Durchlesen einer Dokumentationsseite oder sorgfältiges Studieren einer Anleitung wie WP:DWL/B im Vorfeld würde weiterhelfen.
Nächstes Jahr gibt es auch Kategorien für URL der gleichen Domain, sofern im Einzelfall gewünscht. Damit sind dann alle gleichartigen Links en bloc und in einem Rutsch aufzuarbeiten, wenn man durchschaut hat, welche Umstrukturierungen auf einer bestimmten Website geschehen sind.
VG --PerfektesChaos 20:51, 21. Nov. 2015 (CET)Beantworten
Mit dem Dump der Tabelle eu arbeite ich schon lange. Mit dem Botlauf werden nun eine Menge Links auf die Diskseite geschreiben, aber es ist nicht erkennebar, ob die Links aus der Vorlage stammen, oder sonst irgendwo erwähnt wurden. Mit einem span display=none - ausgegeben Link mit einem oben erwähnten Präfix sieht man sofort, dass der Link nur von der Vorlage stammen kann. Mit derartig generierten Listen kann man sehr effizient arbeiten.
Was den Datenmüll betrifft sind wir uns einig. Der "Fixed-Link" würde nur so lange in der Weblinksuche aufindbar sein, wie die Vorlage im Artikel steht. (Lua sollte ja erkennen, wenn eine tote URL aus dem Artikel verschwunden ist, und könnte so im versteckten Link auf Fixed umschalten.
Wenn jemand nach diesen "fixed"-Links mit der Weblinksuche sucht, und die Vorlagen aufräumt, seien ihm die billigen Edits vergönnt. Allerdings könnte auch ein Bot nach http://fixedURL.botlauf.giftbot.invalid/$URL suchen, und die gefixte $URL in nowiki-Tags setzen.
Die oben erwähnten Links wären über die Weblinksuche abrufbar, man wäre als nicht zwingend auf Dumps angewiesen, die derzeit nur alle 30 Tage aktualisiert werden. Das Übertragen einer einmal gefundenen Lösung auf das gleiche Muster, kann extrem Zeitsparend sein. Oft dauert es eine Viertelstunde bis man für eine URL Ersatz gefunden hat. Wenn jemand eine URL Domain1/pfad1 nach DomainNeu/pfadNEU1 ausbessert, kann diese Lösung für alle Pfade von 1-50 tauglich sein. Statt da 50 Benutzer insgesamt einen ganzen Arbeitstag zu binden, kann man die 50 Links innerhalb von 5 Minuten lösen.
Eine weiter recht praktische Anwendung wäre die Tool Giftbotweblinksuche deaktiviert. Links gegen die Treffer abzusuchen. Auch hier kann man von einer schon gefunden Lösungen ausgehen. Mit einer simplen Tabellenkalkulation ist so ein Abgleich in wenigen Minuten erledigt, und bringt mit Sicherheit eine hohe dreistellige Zahl an fertigen Lösungen.
Solche Schattenlinks beeinträchtigen niemanden, kosten extrem wenig, wenn sie von der Vorlage erstellt werden, und können sehr effizient genutzt werden. Ich bitte daher diese in das Lua-Modul einzubauen.  Frohes Schaffen — Boshomi ☕⌨☺  00:14, 22. Nov. 2015 (CET)Beantworten
Links nach dem Muster http://toteURL.botlauf.giftbot.invalid/$URL könnte man zum Einfärben nicht erreichbarer URL analog zum Gadget Rechtschreibprüfung verwenden, da die EU-API über JavaScript erreichbar wäre. Frohes Schaffen — Boshomi ☕⌨☺  11:36, 22. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)

Bug im Modul

Bearbeiten

Eine Kleinigkeit, aber der Link hinter "andere Artikel, gleiche Domain" funktioniert nicht: Giftis Weblink-Such-Formular benötigt am Ende der URL noch ein %, das wird aber hier nicht mitgeliefert. Aktuell gerade zu besichtigen auf Diskussion:Algerien, der Link lautet:

korrekt wäre

Sonst wuppt doch alles, oder? --Mabschaaf 09:54, 22. Nov. 2015 (CET)Beantworten

Guten Morgen; aha, minimaler Fix und bei unter 100 einbindenden Seiten schnell zu beseitigen.
  • Wird im Lauf des Vormittags behoben; muss JS auf den gleichen Fehler checken.
  • Deshalb fängt man ja erstmal langsam an und testet mit realen Problemen, die beim Spielen auf Beta nicht aufgefallen waren.
Ansonsten: Alles unauffällig, es gab in den ersten Morgenstunden einen kleinen Ruckler, weil das GiftBot-geschriebene Format Lua-zulässig ist, aber von JS leicht abweichend erwartet wurde.
Zurzeit wird übrigens einer der ersten Systemwechsel um 2003/04 abgearbeitet, als die ersten 10.000 Artikel der ersten Datenbank mit teilweise schon nicht mehr bis zur Seitenanlage zurückreichender Versionsgeschichte in alphabetischer Sortierung in das heutige MediaWiki übernommen wurde.
Ich denke, dass wir um die Mittagszeit den Dampfer aus Hafen und Klippen manövriert haben und dann mit Volldampf auf Weltumrundung schicken können.
LG --PerfektesChaos 10:34, 22. Nov. 2015 (CET)Beantworten
Ja, dazu noch das, damit noch mehr Leute draufschauen.
Sieht alles sehr gut aus. :-D --Mabschaaf 10:43, 22. Nov. 2015 (CET)Beantworten
Fix ist auf Beta; bitte mal auf den dortigen Diskuseiten gegenchecken, ob ich das richtig verstanden habe. Nach Freigabe kopiere ich das hier ein, danach können ein paar Kohlen mehr unter den Kessel. LG --PerfektesChaos 11:41, 22. Nov. 2015 (CET)Beantworten
Sieht für mich gut aus, es soll aber bitte noch jemand drüber schauen. Ich hätte dann gerne ein Zeichen, dass ich weitermachen kann. – Giftpflanze 12:49, 22. Nov. 2015 (CET)Beantworten
@Mabschaaf: Der „jemand“ wärst wohl du? --PerfektesChaos 14:34, 22. Nov. 2015 (CET)Beantworten
@PerfektesChaos: Ja, klar. Habe gerade ganz wenig Zeit und bei einem Schnelltest nichts auffälliges gefunden. Also: Go!--Mabschaaf 15:27, 22. Nov. 2015 (CET)Beantworten

@Giftpflanze: Wie interpretierst du Spezial:Diff/148280744? LG --PerfektesChaos 14:47, 22. Nov. 2015 (CET)Beantworten

In welcher Hinsicht? – Giftpflanze 15:02, 22. Nov. 2015 (CET)Beantworten
Naja, da stand keine Vorlage, weshalb ich als Bot die gar nicht wahrgenomen hätte, und es hatte jemand „geantwortet“; die Bot-Sig schloss den Abschnitt also nicht ab. Gibt es ein Limit, bis wie viele Buchstaben eine Antwort nicht als Diskussionsbeitrag gezählt wird? LG --PerfektesChaos 15:20, 22. Nov. 2015 (CET)Beantworten
Achso. Naja, die Meldung kann ja weg. Und „Link ersetzt“ ist eine der Antworten, die bei mir eine Erledigung andeuten. Also nix von Belang. Alles gut. – Giftpflanze 15:23, 22. Nov. 2015 (CET)Beantworten
For the record: Spezial:Diff/148278878 hatte Spam. Diskussion:Algerien ist auch nett.
@Giftpflanze: Hau rein! Guten Rutsch, Frohes Neues schon mal --PerfektesChaos 15:36, 22. Nov. 2015 (CET)Beantworten
Jöah, danke, dann gehts jetzt los! – Giftpflanze 15:50, 22. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)

Umlautproblem

Bearbeiten

Ich habe den Bot erstmal gestoppt. Ich dachte ich hätte das mit den Umlauten bereits gefixt, aber ich habs in der Produktionsumgebung gar nicht getestet. Deswegen werden jetzt alle URL mit Umlauten als defekt gemeldet. Die muss ich noch ausfiltern, bis dahin ist der Bot gestoppt (ich denke, dass ich das die nächsten Tage hinkriege). – Giftpflanze 17:24, 22. Nov. 2015 (CET)Beantworten

Keine Hektik, dann können wir auch Schrägstrich und Unterseiten geduldig lösen.
Unsere Wartungsameisen waren dem Viertelstundentakt dicht auf den Fersen; bis der Bot wieder anläuft, haben die wahrscheinlich die Kat geputzt.
LG --PerfektesChaos 17:34, 22. Nov. 2015 (CET)Beantworten
Ich habe inzwischen schon eine Lösung gefunden und der Bot läuft auch schon wieder. – Giftpflanze 17:55, 22. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)

Syntaxfehler in Meldung?

Bearbeiten

@Giftpflanze, PerfektesChaos: Es gibt inzwischen zwei Einträge in Kategorie:Wikipedia:Defekte Weblinks/Bot/Vorlagensyntax - da müsstet ihr mal schauen, warum sich Botmeldung und Modul nicht verstehen.--Mabschaaf 10:44, 28. Nov. 2015 (CET)Beantworten

Der Fehler liegt auf der Seite des Bots. Ich schau mir das mal genauer an. – Giftpflanze 11:06, 28. Nov. 2015 (CET)Beantworten
Ich habe jetzt alle Fehler beseitigt und merke mir fürs nächste Mal die Datei nachzubereiten. – Giftpflanze 11:56, 28. Nov. 2015 (CET)Beantworten
Prima. Hast Du auch mal nach der Meldung geschaut, dass Links noch gemeldet werden, obwohl sie schon nicht mehr im Artikel enthalten sind?--Mabschaaf 12:00, 28. Nov. 2015 (CET)Beantworten
Ja. – Giftpflanze 12:32, 28. Nov. 2015 (CET)Beantworten
Das ist super - und eine der ganz großen Stärken dieses Laufs, dass mit der Meldung der weiteren IDs schon in anderen Artikeln gefixt werden kann, wo noch gar keine Meldung stattgefunden hat. (Daher ja auch meine Nachfrage vor einiger Zeit, ob Du die tatsächlich erfolgen Meldungen mitzählst, die Differenz sind dann nämlich die vorab gefixten Links und zufällig gerade vandalierte Seiten.) --Mabschaaf 12:37, 28. Nov. 2015 (CET)Beantworten
Dieser Abschnitt kann archiviert werden. --Mabschaaf 19:59, 4. Dez. 2015 (CET)