Crawler

Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen.

Der Begriff bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war.

Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen.

Technik

Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen. Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen.

Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indizieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält. Zur Bekämpfung unerwünschter Webcrawler gibt es auch spezielle Webseiten, sogenannte Teergruben, die den Webcrawlern falsche Informationen liefern und diese zusätzlich stark ausbremsen.

Probleme

Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links, sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom „Deep Web“. Außerdem stellt die ständige Veränderung des Webs sowie die Manipulation der Inhalte (Cloaking) ein Problem dar.

Arten

Thematisch fokussierte Webcrawler werden als focused crawlers bzw. fokussierte Webcrawler bezeichnet. Die Fokussierung der Web-Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert. Dadurch findet der fokussierte Crawler den besten Weg durch das Web und indiziert nur (für ein Thema bzw. Domäne) relevante Bereiche des Webs. Hürden bei der praktischen Umsetzung derartiger Webcrawler sind vor allem nicht-verlinkte Teilbereiche und das Training der Klassifizierer.

Webcrawler werden auch zur Datenschürfung (data mining) und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein.

Eine Sonderform der Datenschürfung sind Harvester (für „Erntemaschine“). Diese Bezeichnung wird für Software verwendet, die das Internet (WWW, Usenet usw.) nach E-Mail-Adressen absucht und diese „erntet“. So werden elektronische Adressen gesammelt und können danach vermarktet werden. Die Folge sind i. d. R., vor allem aber bei Spambots, Werbe-E-Mails (Spam). Daher wird von der früher gängigen Praxis, auf Webseiten E-Mail-Adressen als Kontaktmöglichkeit per mailto:-Link anzugeben, immer häufiger Abstand genommen; manchmal werden die Adressen versucht durch den Einschub von Leerzeichen oder Wörtern für die Bots unlesbar gemacht. So wird a@example.com zu a (at) example (dot) com. Eine ebenfalls beliebte Methode ist, die E-Mail-Adresse in eine Grafik einzubetten. Die E-Mail-Adresse ist dadurch nicht als Zeichenkette im Quelltext der Webseite vorhanden und somit für den Bot nicht als Textinformation auffindbar.

Webcrawler werden auch zum Auffinden von urheberrechtgeschützten Stadtplänen im Internet genutzt.

Siehe auch

Wrapper (Informationsextraktion)

Weblinks

The Web Robots Pages (Englisch)
Mehr zu Web Crawlern bei Wissensexploration.de
Webcrawling – Die Erschließung des Webs, Ronny Harbich, 2008

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

Crawler — may refer to: Crawler, a person who crawls or creeps along the ground Crawler (band), a British rock band Crawler transporter, a vehicle used to move space vehicles on Earth Web crawler, a computer program that gathers and categorizes information … Wikipedia
crawler — [ krole ] v. intr. <conjug. : 1> • 1931; de crawl ♦ Nager le crawl. Dos crawlé : crawl nagé sur le dos. ● crawler verbe intransitif Nager le crawl. crawler v. intr. Nager le crawl. Pp. adj. Dos crawlé: nage sur le dos, en crawl. crawle … Encyclopédie Universelle
crawler — spider, Also known as bot or crawler. A computer program or programs which seek out and collect information from publicly available websites. Such programs are used by search engines (such as Yahoo!, Google and AltaVista) to visit websites and… … Law dictionary
Crawler — Crawl er (kr?l ?r), n. One who, or that which, crawls; a creeper; a reptile. [1913 Webster] … The Collaborative International Dictionary of English
Crawler — [dt. »Krabbler«] (Web Robot, Internetroboter, Spider), andere Bezeichnung für einen Web Robot (Roboter), also ein Programm, das autonom das Internet durchsucht und Listen mit Webadressen und Inhalten erzeugt … Universal-Lexikon
crawler — /ˈkrɔlə/ (say krawluh) noun 1. someone or something that crawls. 2. → caterpillar1. 3. an abject flatterer. 4. (usually plural) → rompers. 5. a person who is slow or lazy, or unfit to work. 6. an animal which is docile through temperament, old… …
Crawler — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… … Wikipédia en Français
crawler — /kraw leuhr/, n. 1. a person or thing that crawls. 2. Also called crawler tractor. any of various large, heavy vehicles or machines that are propelled on endless belts or tracks, esp. as used in construction. 3. hellgrammite. 4. Often, crawlers.… … Universalium
Crawler — Ein Crawler, auch Spider oder Robot genannt, ist eine Software, die das Netz nach neuen oder aktualisierten Webseiten durchsucht. Robots sind bei Volltext Suchmaschinen im Einsatz, die die gefundenen Seiten nach Stichwörtern in ihre Datenbank… … Online-Wörterbuch Deutsch-Lexikon
crawler — [[t]krɔ͟ːlə(r)[/t]] crawlers N COUNT A crawler is a computer program that visits websites and collects information when you do an Internet search. [COMPUTING] … English dictionary

Academic dictionaries and encyclopedias

Crawler

Inhaltsverzeichnis

Technik

Probleme

Arten

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Crawler

Inhaltsverzeichnis

Technik

Probleme

Arten

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link