Diskussion:Robots Exclusion Standard

Letzter Kommentar: vor 8 Jahren von Gerd Fahrenhorst in Abschnitt Meta Tag

Freundliche Webcrawler

Bearbeiten

Was sind "freundliche" webcrawler?

freundliche (friendly) spider halten sich an robots.txt [1] -- Cherubino 13:59, 25. Mai 2005 (CEST)Beantworten

Meta Tag

Bearbeiten
Webcrawler können auch durch HTML Meta-Tags am Indexieren einer Webseite gehindert werden.
...
<meta name="robots" content="index,follow">

Soll das heißen, dass dieser Code (im <head> plaziert) einen (freundlichen) Bot hindert, die seite zu durchsuchen? Ich denke, "index,follow" bewirkt das gegenteil, hier sollte "nofollw" hin. (Bin mir nicht sicher, hab mich mit dem Thema nicht auseinandergesetzt.) --Athalis 22:42, 21. Jan 2006 (CET)

Die Meta-Tags im Seitenquelltext dieser Seite hier lauten:. Klick im Browser auf Ansicht > Quelltext dann findest du die Zeile, denn wikipedia soll ja von den bots durchsucht werden. -- Cherubino 08:34, 22. Jan 2006 (CET)

Ich hab auf einer Homepage [2] im HTML-Code folgendes gefunden:

<meta name="robots" content="all" />

Was hat das zu bedeuten?

Weiter oben auf der selben Seite steht übrigens:

<meta name="robots" content="index,follow,noarchive" /> --MrBurns 23:57, 26. Mai 2008 (CEST)Beantworten

So etwas wie <meta name="robots" content="all" /> oder <meta name="robots" content="index,follow" /> sind Hirngespinste einzelner Webseitenbetreiber, die hoffen, so eher gecrawlt zu werden. Mit meta name="robots" kann man Webcrawler nur bitten, ihre Arbeit einzuschränken, nicht, mehr zu arbeiten. --188.107.62.28 19:50, 28. Feb. 2016 (CET)Beantworten
Das kann aber auch sinnvoll sein, damit der Autor der Webseite explizit für jede Seite festlegen kann ob sie indiziert werden soll oder nicht. Bei fehlender Angabe könnte jemand annehmen, dass die Angabe einfach vergessen wurde und somit der Wille des Erstellers unklar wäre. -- Gerd Fahrenhorst (Diskussion) 20:06, 28. Feb. 2016 (CET)Beantworten
Dann kann man auch <meta name="robots" content="bitteIndexiereMich" /> schreiben ;-) Eine Übersicht, was sinnvoll ist, findet man hier: https://support.google.com/webmasters/answer/79812?hl=de --88.68.25.182 21:31, 29. Feb. 2016 (CET)Beantworten
Im Prinzip schon, allerdings ist das Wort "ALL" standardisiert: HTML 4.1. -- Gerd Fahrenhorst (Diskussion) 19:12, 3. Mär. 2016 (CET)Beantworten

Wer hat den Standard verfasst bzw. wer maintained ihn ?

Bearbeiten

Welches Gremium bzw. internationale Organisation ist dafür verantwortlich ?--134.155.27.210 23:23, 16. Jun 2005 (CEST)

Laut [3] war es ein unabhängiger Zusammenschluss von Robot-Entwicklern. Das Protokoll ist aus der Not heraus entstanden, weil es nichts Vergleichbares gab, und wurde schnell als De-Facto-Standard anerkannt. --TM 20:51, 22. Jan 2006 (CET)

Sitemaps?

Bearbeiten

Gemäss heise online wurde der robots.txt-standard angepasst für sitemaps

[4] [5]

--152.96.242.6 08:31, 16. Apr. 2007 (CEST)Beantworten

Änderungen im Nachhinein?

Bearbeiten

Auf meiner Domain habe ich einige Projekte die in Suchmaschinen aufscheinen. Inzwischen habe ich eine robots.txt geschrieben die alle Verzeichnisse ausschließt wo Daten liegen, die nicht in Suchmaschinen aufscheinen sollen. Werden diese Änderungen im Nachhinein noch wirksam? (Der vorstehende, nicht signierte Beitrag stammt von 85.126.122.243 (DiskussionBeiträge) 21:28, 25. Jun. 2007)

Ja, natürlich. Das kann allerdings eine Weile dauern – abhängig von der Suchmaschine sogar einige Monate. Bei Google hast du zusätzlich die Möglichkeit, über die Webmaster Tools die Entfernung bestimmter Seiten ausdrücklich zu beantragen. --TM 09:36, 26. Jun. 2007 (CEST)Beantworten

Leerzeilen erlaubt?

Bearbeiten

"Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt." - Stimmt das so? Vgl. ganz ganz viele Leerzeilen in der robots.txt der Wikipedia --Oliver 11:33, 22. Sep. 2007 (CEST)Beantworten

In der Dokumentation steht ausdrücklich, dass Leerzeilen für die Trennung der Records bestimmt sind (also immer oberhalb der User-agent-Zeile) und innerhalb der Records verboten sind. Aber man kann wohl davon ausgehen, dass die meisten Suchmaschinenroboter mit zusätzlichen Leerzeilen kein Problem haben. --TM 19:13, 22. Sep. 2007 (CEST)Beantworten

--Jabiko 01:13, 7. Feb. 2010 (CET)== Wikipedia's robots.txt ==Beantworten

Ich bin dem Link gefolgt und habe u.a. folgende Zeilen gefunden:

# Don't allow the wayback-maschine to index user-pages

#User-agent: ia_archiver

#Disallow: /wiki/User

#Disallow: /wiki/Benutzer

Müssste man die Rauten ab der zweiten Zeile nicht entfernen?

Anscheinend wurde der Abschnitt für den ia_archiver auskommentiert --Jabiko 01:13, 7. Feb. 2010 (CET)Beantworten

Momentan ist die robots.txt wieder defekt: Disallow: /wiki/Wikiquote_talk:Votes_for_deletion_archive/ Disallow: /wiki/Wikiquote_talk%3AVotes_for_deletion_archive/ # enwikibooks Disallow: /wiki/Wikibooks:Votes_for_deletion

Inkorrekt?

Bearbeiten
 Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie bezieht.
 Ein Webcrawler würde also bei dem Eintrag User-agent: *, der alle Webcrawler anspricht, stoppen,
 ohne bis zu dem Eintrag weiterzugehen, der extra für ihn angelegt wurde.

Das scheint nicht zu stimmen. Z.B. ist auf der Original-Dokumentation ein Beispiel, wo zuerst * und dann ein spezifischer Robot kommt: http://www.robotstxt.org/orig.html

Ich finde im Text sollte auch darauf hingewiesen werden, dass gerade durch den Einsatz der robots.txt jeder Besucher weiß, was er sich eigentlich nicht anschauen soll. Beispiel: Weißes Haus. So weiß jeder wo beispielswiese die Holidayfotos von 2007 liegen...obwohl man das ohne die robots.txt vielelicht nie so recht gefunden hätte.

Yahoo Slurp, crawl-delay

Bearbeiten

Gemäß Yahoo Help ist der maximale Wert für crawl-delay = 10, im Text ist von 120 (Sekunden) die Rede. Yahoo selbst gibt aber keinerlei Einheit für seinen Delay-Wert an. Kann das bitte jemand präzisieren? --Webschmied 17:48, 16. Jan. 2011 (CET)Beantworten

Besuch vs. Indexierung

Bearbeiten

„In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf.“

Geht es wirklich darum, ob die Seite besucht werden darf oder doch eher darum, ob sie indexiert werden soll? --Seth Cohen 19:53, 20. Nov. 2014 (CET)Beantworten