Wikipedia Diskussion:Lua/Werkstatt/Defekter Weblink Bot
Auf dieser Seite wird manuell archiviert nach WD:Lua/Werkstatt/Archiv/Defekter Weblink Bot
Statistik
BearbeitenIch habe mir das so vorgestellt: Anzahl der einzelnen Links in Artikeln (d.h. doppelt/mehrfach vorkommende Links werden nur einmal gezählt), Anzahl der defekten Links davon, Anzahl der Artikel, Anzahl der Artikel mit erkannten defekten Links, mehr erforderlich? – Giftpflanze 15:20, 19. Dez. 2013 (CET)
- Das meint: Die Gesamt-Statistik über den Lauf, noch ergänzt um das Datum, wann die erste URL geprüft wurde, und das Datum der allerletzten Prüfung.
- Klar, dass pro Artikel jede URL nur einmal gezählt wird.
- Dazu noch spezielle Statistiken; nach Abschluss aus der Datenbank gezogen:
- Die 1000 häufigsten Domains, mit Anzahl der Artikel; nebst besonderem Statuscode 300er/500er wo aufgefallen
- Die 1000 häufigsten oder alle Domains mit 500er Statuscode; mit Anzahl der Artikel
- Die 100 häufigsten URL; mit Anzahl der Artikel
- Das meint: Die Gesamt-Statistik über den Lauf, noch ergänzt um das Datum, wann die erste URL geprüft wurde, und das Datum der allerletzten Prüfung.
- LG --PerfektesChaos 09:40, 20. Dez. 2013 (CET)
- Nochmal ausgebaut.
- Allgemeine Statistik (letztlich nur Größenordnung und Prozentzahlen wichtig; auf 17 Artikel hin oder her kommt es nicht an):
- Erster und letzter Tag der Analyse
- Gesamtzahl analysierter Artikel
- Zahl beanstandeter Artikel (=Disku-Schreibungen)
- Gesamtzahl unterschiedlicher analysierter URL (folgt: Welcher Prozentsatz der WP-EL funktioniert?)
- Zahl unterschiedlicher defekter URL
- Zahl beanstandeter Verlinkungen (damit Mehrfachnennungen, wenn gleiche URL in mehreren Artikeln)
- 2012:
- 283595 verschiedene defekte Weblinks
- 209948 Artikeln
- Hoffnungsfroh --PerfektesChaos 23:35, 15. Jan. 2014 (CET)
MIME nebenbei protokollieren
BearbeitenHi, gifti, ich hoffe, ich bin nicht zu spät.
- Du fasst ja jetzt jede URL im ANR nochmal an.
- Eigentlich interessierst du dich für diejenigen URL, wo keine erfreuliche Antwort vom Server kommt.
- Ich hätte gern, dass du bei den erfolgreichen gleich noch etwas notierst.
- Und zwar, dass du nach dem MIME-Typ (HTTP:
Content-Type
) schaust, und ob der mitapplication/
beginnen würde.- Falls ja, interessieren mich folgende Abarten:
- application/pdf
- application/postscript
- application/gzip
- application/zip
- application/msexcel
- application/mspowerpoint
- application/msword
- Wenn eine davon trifft, dann wüsste ich gern die
Content-Length
in ganzen kB gerundet.
- Falls ja, interessieren mich folgende Abarten:
- Das sollte dann auf wmflabs aufgezeichnet werden in einer simplen ASCII-Datei:
pageid application-type kb today URL 9876543210 pdf 4711 20151018 http://example.org/42.pdf
- Wenn das nicht vollständig ist, ist es überhaupt kein Problem; es ist nur ein hint und Startpunkt, nichts weiter.
- Ziel ist, dass irgendwann später mal ein anderer Bot oder du selbst durch den aktuellen Quelltext stromerst und im Kontext geklammerter Weblinks schaut, ob dahinter etwas steht wie
(PDF)
oder bei der iq-Vorlage der Parameterformat=PDF
schon angegeben ist, und ob da schon eine ungefähre Größe mit beisteht. In der offenen Text-Klammer kann gleich die Größenordnung nachgetragen werden als(PDF; 432 kB)
oder(PDF; 1,2 MB)
und derformat
-Parameter kann entsprechend ergänzt oder sogar neu eingefügt werden. Außerdem kann der Zeitpunkt des letzten erfolgreichen Abrufs in der iq-Vorlage aktualisiert werden.
LG --PerfektesChaos 12:10, 11. Okt. 2015 (CEST)
- Ich hab das mal mit eingebaut, das Ergebnis gibts dann so um den 22. Oktober. Die Umsetzung überlasse ich allerdings lieber einem anderen Bot. – Giftpflanze 13:00, 11. Okt. 2015 (CEST)
- In the wild gibt es noch einige andere application types mehr: toollabs:giftbot/app.fsus. Vielleicht willst du ja noch ein paar mehr einschließen. pageid, sehe ich gerade, wird ein bisschen aufwändiger, ich würde es gerne weglassen (diese Information interessiert mich beim Prüfen nicht und wurde daher weggelassen). – Giftpflanze 22:31, 8. Nov. 2015 (CET)
Ah, danke.
- Der Schwerpunkt liegt auf den 230.000 PDF.
- Der Rest ist nett, wenn es dir keine Mühen macht; aber Konzentration auf das Wesentliche. Ich habe unten in der Tabelle mal die Typen notiert, die von Interesse wären. Es muss sich ja dann auch für den einfügenden Bot und die Leserschaft lohnen.
- Hinter application/octet-stream kann sich sonstwas verbergen. Müssen die Autoren selbst herausfinden.
- „pageid, sehe ich gerade, wird ein bisschen aufwändiger, ich würde es gerne weglassen“
- Den Satz verstehe ich nicht.
- Du hast die Info doch zur Hand, wenn du deine URL-Datenbank aufbaust? Und die geht doch nach pageid und nicht nach verschiebungsgefährdeten langen Artikelnamen?
- Ohne pageid wüsste ja der artikelbearbeitende Bot nicht, in welchen Artikel an welche URL wieviel kB drangeschrieben werden müssten.
Fertiger Typ | Server-Antwort | URL |
---|---|---|
231063 | ||
x-pdf | 127 | |
xpdf | 2 | |
40 | ||
acrobat | 18 | |
vnd.adobe.pdf | 1 | |
postscript | postscript | 121 |
msword | msword | 1317 |
vnd.ms-word | 1 | |
msexcel | x-msexcel | 3 |
ms-excel | 2 | |
msexcel | 2 | |
vnd.ms-excel | 656 | |
mspowerpoint | vnd.ms-powerpoint | 178 |
zip | zip | 242 |
x-zip | 4 | |
x-zip-compressed | 81 | |
gzip | x-gzip | 48 |
ogg | ogg | 376 |
rtf | rtf | 208 |
flash | x-shockwave-flash | 199 |
Irgendwie müssten die bunten Server-Antworten so gemappt werden, dass hinterher in der den hiesigen Bots übergebenen Spalte nur noch die Schlüsselwörter der linken Spalte stehen.
- Eine Möglichkeit wäre es, hinterher die Textdatei durch einen guten Texteditor oder sed zu jagen und die Schlüsselwörter über reguläre Ausdrücke da als zweites Token zu standardisieren.
- Ein anderer Weg wäre es, wenn die Programmiersprache und dein Aufwand es zulassen, schon beim Schreiben eine Mapping-Table zu verwenden, die auch gleich hü oder hott sagen würde, ob der Untertyp gedumpt werden soll.
- Also
maptable[ "x-pdf" ]
liefert"pdf"
undmaptable[ "octet-stream" ]
liefertnull
.
- Also
LG --PerfektesChaos 23:49, 8. Nov. 2015 (CET)
Ich habe fertig: toollabs:giftbot/app.f2mg (36 MB) – Giftpflanze 23:32, 9. Nov. 2015 (CET)