Das folgende Bash-Skript kann dazu genutzt werden, um beliebige Zeichenfolgen im von der MediaWiki-Software generierten HTML-Code zu finden. Insbesondere können damit auch Parser-Fehler von LaTex-Formeln gefunden werden, welche ansonsten nicht auffindbar sind. Hintergründe dazu siehe [1] und [2].
Passender CatScan Mathematik, Physik und Statistik: Liefert etwa 20.000 Artikel. Das Ausgabeformat muss auf "TSV" umgestellt werden. Danach das Ergebnis lokal abspeichern, die ersten beiden Zeilen der Datei von Hand zu entfernen und dann das untenstehende Skript darauf anwenden.
Hinweis: Sollte das Skript Artikel ausgeben, bei denen während der Nachkontrolle im normalen Webbrowser keine Parserfehler angezeigt werden, so kann das Leeren des serverseitigen Caches für den betreffenden Artikel das Problem möglicherweise beheben.
Quellcode
Bearbeiten#!/bin/sh
# Es wird keinerlei Garantie dafür übernommen, dass dieses Skript
# das tut was es soll und nichts tut, was es nicht soll.
# Einsatz ausdrücklich auf eigene Gefahr!
# Als Eingabedatei eignet sich ein beliebiger CatScan
# (http://toolserver.org/~magnus/catscan_rewrite.php?interface_language=de)
# im Ausgabeformat "TSV", wobei dann noch die ersten beiden Zeilen von Hand entfernt
# werden müssen.
if [ $# -ne 1 ]
then
echo "Aufruf: $0 <Artikelliste>"
exit
fi
if test -f $1
then
if test -f $1.out
then
rm $1.out
fi
for i in `cut -f 1 $1`; do
lynx -source http://de.wikipedia.org/wiki/$i | grep "Fehler beim Parsen" > /dev/null
if [ $? = "0" ] ; then
echo \* \[\[$i\]\] | tee -a $1.out
fi
sleep 0.2
done
else
echo "Datei $1 existiert nicht"
fi