Robots.txt

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung, dazu sind Seiten oder Unterverzeichnisse eines Servers über eine .htaccess-Datei zu schützen. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Das Protokoll wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch allgemein anerkannt und kann als Quasi-Standard betrachtet werden. Mit ACAP 1.0 (Automated Content Access Protocol) wurde am 30. November 2007 eine mögliche Erweiterung des Robots Exclusion Standards veröffentlicht. Anfang Juni 2008 bekannten sich Google^[1], Microsoft und Yahoo zu einigen Gemeinsamkeiten. ^[2]

Aufbau

Die Datei robots.txt ist eine Textdatei in einem einfach lesbaren Format. Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennten werden.

User-agent: Sidewinder
Disallow: /

Die erste Zeile beschreibt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Regeln richten. Es darf beliebig viele solcher Blöcke geben. Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich ein Block auf sie bezieht. Nach einem Block, dessen erste Zeile mit User-agent: * beginnt, stoppt ein Webcrawler und liest den Rest der Datei nicht mehr. Also sollten in der Datei zuerst die Blöcke für spezielle Webcrawler stehen und als letztes der Block für alle. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

Anweisung	Beschreibung	Beispiel	Funktion
`User-agent:`	Spezifizierung des Webcrawlers	`User-agent: Sidewinder`	Gilt nur für den Webcrawler namens „Sidewinder“
		`User-agent: *`	Wildcard für User-agent; gilt für alle Webcrawler
`Disallow:`	Auslesen nicht gestatten	`Disallow:`	Kein Ausschluss; die komplette Webpräsenz darf durchsucht werden
		`Disallow: /`	Die komplette Webpräsenz darf nicht durchsucht werden
		`Disallow: /Temp/` `Disallow: /default.html`	Das Verzeichnis „Temp“ und die Datei „default.html“ dürfen nicht durchsucht werden
`$`	Zeilenende-Anker (nur Googlebot, Yahoo! Slurp, msnbot)	`Disallow: /*.pdf$`	Alle PDF-Dateien werden ignoriert
`?`	URLs mit '?' behandeln (nur Googlebot)	`Disallow: /*?`	Alle URLs die ein '?' enthalten werden ignoriert
		`Allow: /*?$`	Alle URLs die mit einem '?' enden werden erlaubt
`Allow:`	Auslesen erlauben (nur Ask.com, Googlebot, Yahoo! Slurp)	`Disallow: /` `Allow: /public`	Nur das Verzeichnis „/public“ darf durchsucht werden, der Rest nicht
`Crawl-delay:`	Auslesegeschwindigkeit (nur Yahoo! Slurp, msnbot)	`Crawl-delay: 120`	Nur alle 120 Sekunden darf eine neue Seite zum Auslesen aufgerufen werden.
`Sitemap:`	URL der Sitemap (nur Googlebot, Yahoo! Slurp, msnbot, Ask.com)	`Sitemap: http://example.com/sitemap.xml`	Die Sitemap gemäß dem Sitemap-Protokoll liegt unter der angegebenen Adresse.

Beispiele

# robots.txt für meineseite.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /
 
User-agent: Microsoft.URL.Control
Disallow: /
 
# Diese Verzeichnisse/Dateien sollen nicht durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte verschwinden bald
Disallow: /Privat/Familie/Geburtstage.html

Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.

User-agent: *
Disallow: /

Weiteres Beispiel: robots.txt von Wikipedia

Meta-Tags

Webcrawler können auch durch Meta-Tags im HTML-Quelltext einer Webseite am Indexieren gehindert werden. Auch Meta-Tags sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch den Hyperlinks der Seite folgen, lautet der Meta-Tag

<meta name="robots" content="noindex,nofollow" />

In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:

<meta name="robots" content="all" />

Siehe: W3C Recommendation "Robots and the META element"

Anmerkungen

↑ Verbesserungen des Robots-Exclusion-Protokolls, Google-Blog Webmaster Zentrale, 10. Juni 2008
↑ Everything You Wanted To Know About Blocking Search Engines, searchengineland.com, 12. Juni 2008

Siehe auch

Literatur

Ian Peacock, Showing Robots the Door, What is Robots Exclusion Protocol?, Ariadne, May 1998, Issue 15, Webversion

Weblinks

The Web Robots Pages (englisch)
Die Datei robots.txt der Wikipedia
robots.txt – Robots kontrollieren Erläuterungen zur Datei robots.txt bei SELFHTML
Google.de: Googlebot: Der Web-Crawler von Google, Wollen Sie etwas aus Googles Index entfernen?
Google.com: spezielle Googlebot Syntax-Erweiterungen (englisch)
ACAP − Automated Content Access Protocol (Erweiterung/Weiterentwicklung; engl.)

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

Robots.txt — Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d indexation… … Wikipédia en Français
Robots.txt — robots.txt файл ограничения доступа к содержимому роботам на http сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в… … Википедия
robots.txt — robots.txt, Datei, die von Suchmaschinen beauftragte automatische Rechercheprogramme (Roboter) daran hindert, bestimmte Teile eines Webservers zu untersuchen. Man nennt diese Technik auch Robot Exclusion (dt. »Roboterausschluss«). Die Datei… … Universal-Lexikon
Robots.txt — Mit dieser Textdatei im Hauptverzeichnis einer Website können Spider i.d.R. davon abgehalten werden, bestimmte Dateien oder Ordner zu spidern und zu indexieren. Seriöse Suchmaschinen Spider halten sich an diese Anweisungen. Webseiten, die absolut … SEO Wörterbuch
robots.txt — ● np. m. ►MOTREC Fichier placé dans un répertoire d un site web et destiné aux moteur de recherche. Il contient des indications disant ce qu il faut indexer et ce qu il faut laisser de côté … Dictionnaire d'informatique francophone
Robots.txt — PodWEB A file which specifies which pages or folders should NOT be indexed by search engines. This is used for Search Engine Optimization to exclude content that doesn’t need to be indexed and might confuse the search engine crawlers … Audio and video glossary
Robots exclusion standard — selfref| For restricting Wikipedia bots, see .|The robot exclusion standard, also known as the Robots Exclusion Protocol or robots.txt protocol, is a convention to prevent cooperating web spiders and other web robots from accessing all or part of … Wikipedia
Robots Exclusion Standard — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… … Deutsch Wikipedia
Robots d'indexation — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… … Wikipédia en Français
Robot.txt — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français

Academic dictionaries and encyclopedias

Robots.txt

Inhaltsverzeichnis

Aufbau

Beispiele

Meta-Tags

Anmerkungen

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Robots.txt

Inhaltsverzeichnis

Aufbau

Beispiele

Meta-Tags

Anmerkungen

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link