Internet-Archiv

Internet-Archiv
Internet Archive in San Francisco
Internet Archive in der Bibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern.

Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde. Es hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht.

Es speichert Momentaufnahmen von Webseiten, Usenet-Beiträgen, Filmen, Tonaufnahmen (hauptsächlich von Live-Konzerten), Büchern und Software. Ein Mirror der Daten von San Francisco befindet sich in der Bibliotheca Alexandrina.

Inhaltsverzeichnis

Dienste

Zum Archiv gehört auch die Wayback Machine, mit der man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die Auswahl der zu speichernden Seiten erfolgt über den Dienst Alexa Internet. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Der Gesamtumfang beträgt etwa 85 Milliarden Seiten (Stand: März 2007). Die Seiten werden erst ca. 6 Monate nach dem Indexieren öffentlich verfügbar gemacht.

In dem „Million Book Project“ werden durch das Internet Archive Bücher, die durch das Ablaufen des Copyrights (us-amerikanisches Urheberrecht) oder aus anderen Gründen gemeinfrei geworden sind, digitalisiert und in den Dateiformaten DjVu, TIFF und PDF zum Herunterladen zur Verfügung gestellt.

Es werden mehrere Scan-Center (2009 insgesamt 12) unterhalten, zum Beispiel in Richmond. Gescant wird per Auftrag, berechnet werden pro Seite zehn US-Cent (Stand 2009). Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine per OCR erstellte Textdatei, eine persistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Vereins zu hosten.[1] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und reduntantes Hosting.

Die Library of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-Gesetzes Digital Millennium Copyright Act gewährt[2]. Das Internet Archive darf somit Computer-Software oder -Spiele mit der Absicht der Erhaltung speichern, wenn die Originalhardware, -formate oder -technologie veraltet sind.

Das Archiv hat eine geschätzte Größe von drei Petabyte und wächst um ca. 100 Terabyte pro Monat[3]. Das Archiv ist vom US-Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.[4]

Kritik

Problematisch an der Wayback Machine ist einerseits, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahre der Öffentlichkeit zugänglich gemacht. Dies lässt sich jedoch durch eine entsprechende robots.txt-Datei im Stammverzeichnis der Domain beheben. Andererseits wird nicht alles gesichert, beispielsweise werden Bilder von Internetseiten häufig nicht mitgesichert und stehen nach dem Verschwinden der Originalseite nicht mehr zur Verfügung.

Quellen

  1. http://www.zeit.de/2008/04/OdE13-Wissen?page=2 Das digitale Alexandria, Die Zeit 4/2008
  2. Internet Archive wins copyright reprieve, The Register, 1. Dezember 2006
  3. Internet Archive to unveil massive Wayback Machine data center, Computerworld, abgerufen am 26. März 2009
  4. Internet Archive officially a library

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Internet Archive — http://www.archive.org Motto Universal access to human knowledge Kommerziell g …   Deutsch Wikipedia

  • Archiv — Eingang zu den Archivkammern im Palast des Assurbanipals …   Deutsch Wikipedia

  • Internet Fundraising — Fundraising ist nach Urselmann die systematische Analyse, Planung, Durchführung und Kontrolle sämtlicher Aktivitäten einer Non Profit Organisation (NPO), die darauf abzielen, alle für die Erfüllung des Satzungszwecks benötigten Ressourcen (Geld …   Deutsch Wikipedia

  • Archiv des Liberalismus — Das Archiv des Liberalismus der Friedrich Naumann Stiftung für die Freiheit in Gummersbach sammelt Unterlagen zur Geschichte des organisierten Liberalismus. Es erschließt neben „klassischem“ Aktenmaterial auch Druckschriften, Plakate und andere… …   Deutsch Wikipedia

  • Archiv für gesprochenes Deutsch — Das Archiv für Gesprochenes Deutsch (AGD), bis 2004 Deutsches Spracharchiv, gehört zum Institut für Deutsche Sprache in Mannheim und ist die zentrale Dokumentationstelle für gesprochenes Deutsch. Das Archiv übernimmt die bei Spracherhebungen und… …   Deutsch Wikipedia

  • Archiv der sozialen Demokratie — Das Archiv der sozialen Demokratie (AdsD) der Friedrich Ebert Stiftung (FES) ist eines der größten Archive der Arbeiterbewegung. Es befindet sich in Bonn. Inhaltsverzeichnis 1 Gründung 2 Bestände 3 Weblinks …   Deutsch Wikipedia

  • Archiv des Todes — Seriendaten Deutscher Titel Archiv des Todes Produktionsland DDR …   Deutsch Wikipedia

  • Internet-Sucht — Mit Internetabhängigkeit (umgangssprachlich auch Internet oder Onlinesucht) wird das Phänomen bezeichnet, in letztlich gesundheitsgefährdendem Ausmaß das Internet zu nutzen. In der Wissenschaft ist der Begriff umstritten, trotz offensichtlichen… …   Deutsch Wikipedia

  • Internet-Browser — Webbrowser, oder allgemein auch Browser (engl., deutsche Aussprache [ˈbraʊ̯za]) genannt, für „Durchstöberer“, „Blätterer“ sind spezielle Computerprogramme zum Betrachten von Webseiten im World Wide Web. Das Durchstöbern des World Wide Webs… …   Deutsch Wikipedia

  • Internet-Blase — Dotcom Blase am NASDAQ Der Begriff Dotcom Blase ist ein durch die Medien geprägter Kunstbegriff für eine im März 2000 geplatzte Spekulationsblase, die insbesondere die so genannten Dotcom Unternehmen betraf und vor allem in Industrieländern zu… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”