Wikipedia:Technik/Cloud/grep
(Weitergeleitet von Wikipedia:Technik/Labs/Tools/grep)
grep
(Seiten suchen)
sucht nach Seiten, deren Titel einem regulären Ausdruck entspricht.
Dieses Werkzeug war lange Zeit wichtig gewesen. Mittlerweile (seit April 2018) erlaubt die Syntax intitle:
der Cirrus-Suche auch reguläre Ausdrücke in Seitentiteln; verknüpfbar mit vielen weiteren Bedingungen.
Interaktive Bedienung
BearbeitenEs stehen mehrere Datenfelder zur Verfügung.
- Das Wiki-Projekt muss ausgewählt werden, die deutsche Sprachversion Language, ggf. auch der Namensraum Namespace.
- Mit einem Häkchen bei Include redirects werden Weiterleitungen ausgeblendet (etwas verwirrend).
Die größte Herausforderung ist die Eingabe des Suchmusters Pattern. Einige Anregungen in verschiedenen Namensräumen:
pattern | Aufruf | Erwartung |
---|---|---|
ikimedia
|
Test | Alle Artikel, deren Name die Zeichenkette ikimedia enthält.
|
seite
|
Test | Hilfeseiten, deren Titel genau die Zeichenkette seite enthält.
|
[Ss]eite
|
Hilfeseiten, deren Titel die Zeichenkette Seite oder seite enthält. Anders sind Varianten der Groß- und Kleinschreibung nicht möglich.
| |
^ABC
|
Seiten, deren Name mit ABC anfängt | |
XYZ$
|
Seiten, deren Name mit XYZ aufhört | |
FGH.*KLM
|
Seiten, in deren Name die Zeichenkette FGH von der Zeichenkette KLM gefolgt wird; dazwischen beliebig viele Zeichen. |
Eine Syntax wie /seite/i
ist derzeit nicht möglich (hier: Groß- und Kleinschreibung ignorieren).
URL und URL-Parameter
BearbeitenNachstehend sind die Parameter aufgelistet, wie sie in der URL benutzt werden.
- Die Basis-URL lautet:
https://grep.toolforge.org/
- Daran ist mit einem vorangehenden Fragezeichen
?
die Parameterliste anzuhängen. - Es folgen Zuweisungen name
=
Wert - Dabei darf Wert keine Leerzeichen enthalten; muss bei bestimmten Zeichen ggf. kodiert werden.
- Die einzelnen Zuweisungen name
=
Wert sind durch&
voneinander zu trennen.
- project
- Projekt-Typ
wikipedia
- lang
- Sprachversion
de
- namespace
- Nummer des Namensraums
0
– Artikel- pattern
- Muster für Seitentitel: Regulärer Ausdruck (Groß- und Kleinschreibung signifikant)
- Zurzeit kein URL-Decoding implementiert; eckige Klammern usw. direkt angeben.
- redirects
- Weiterleitungen zulassen; Vorgabe: keine
on
- limit
- Beschränkung auf erste 100 Treffer; Vorgabe: alle
on