Nach AI-Scraping-Bedenken beschränken Medien den Zugriff auf Internet Archive
In einer zunehmend von KI-Entwicklung geprägten digitalen Landschaft beginnen Nachrichtenverlage wie The Guardian und The New York Times, ihre Beziehung zum Internet Archive neu zu bewerten. Ursprünglich als Bollwerk der digitalen Erinnerung gedacht, hat das Archiv mit seiner umfangreichen Sammlung von über einer Billion Webseiten-Snapshots – zugänglich über den Wayback Machine – nun auch als potenzieller Zugangspunkt für KI-Unternehmen fungiert. Als The Guardian prüfte, wer auf seine Inhalte zugreift, stellte sich heraus, dass der Internet Archive regelmäßig Crawlers einsetzt, was zu Sorge über mögliche indirekte Datenextraktion durch KI-Modelle führte. Daraufhin beschloss das Blatt, seinen Zugriff auf die API des Archivs zu sperren und Artikel-URLs aus der Wayback-Machine-Auswahl auszuschließen, während regionale und thematische Startseiten weiterhin zugänglich bleiben. Ähnliche Maßnahmen trifft auch The New York Times, das den Bot archive.org_bot explizit in seiner robots.txt-Datei blockiert. Auch der Financial Times verbietet Zugriffe durch den Internet Archive, da dessen Inhalte – insbesondere paywalled Artikel – für KI-Training missbraucht werden könnten. Die Entwicklung spiegelt einen größeren Trend wider: Viele Nachrichtenorganisationen, darunter zahlreiche Medien des Gannett-Konzerns, haben seit 2025 spezifische Internet Archive-Bots in ihren robots.txt-Dateien gesperrt. In einer Analyse von 1.167 Nachrichtenwebsites stellte Nieman Lab fest, dass 241 Plattformen mindestens einen der vier von Dark Visitors als Internet Archive zugeordneten Crawlers blockieren. Besonders auffällig ist, dass 87 % dieser Sites zur USA Today Co. gehören. Einige wie der Des Moines Register weisen sogar explizit auf die Ausschlussentscheidung hin. Gannett gab an, neue Protokolle zur Abwehr unerlaubter Datenextraktion eingeführt zu haben und betonte die Bedeutung des Urheberrechts. CEO Mike Reed berichtete in einer Geschäftspräsentation, dass im September 2025 75 Millionen KI-Bots blockiert wurden, darunter 70 Millionen von OpenAI. Doch die Sorge geht über den Internet Archive hinaus: 226 der 241 betroffenen Sites blockieren auch Common Crawl – einen anderen Nonprofit, der eng mit KI-Entwicklung verbunden ist. Gleichzeitig verweigern 231 Medien Zugriff für Bots von OpenAI, Google AI und Common Crawl. Der Internet Archive-Gründer Brewster Kahle warnt vor den Folgen: „Wenn Verlage Archive einschränken, verliert die Öffentlichkeit Zugang zur historischen Aufzeichnung.“ Er betont, dass das Archiv bereits Maßnahmen wie Rate-Limiting und Cloudflare-Schutz implementiert hat, und fordert verantwortungsvolles Scannen. Dennoch bleibt die Kritik: Obwohl das Internet Archive als „guter Bürger“ gilt, wird es als Kollateralschaden bei der Bekämpfung von KI-Abnutzung wahrgenommen. Indirekte Hinweise auf Nutzung durch KI-Modelle gibt es bereits: Die Google-C4-Datenbank enthielt 2023 Webseiten aus dem Wayback Machine, darunter das Domain-Objekt web.archive.org auf Platz 187. Zudem wurde das Archiv 2023 kurzzeitig offline, nachdem ein KI-Unternehmen Server überlastete. Obwohl das Unternehmen nach dem Vorfall eine Spende leistete, bleibt die Spannung bestehen. Die Nachrichtenindustrie steht vor der Herausforderung, ihre Inhalte zu schützen, ohne die langfristige Erhaltung digitaler Kultur zu gefährden. Die Entscheidung, das Internet Archive zu begrenzen, ist weniger ein Angriff auf die Organisation selbst, sondern eine Reaktion auf die unerwarteten Folgen eines für die Allgemeinheit gedachten Projekts.
