Reddit blockiert Archivierung von Beiträgen durch Wayback Machine
Reddit blockiert die Internet Archive’s Wayback Machine vor der Indizierung der meisten Inhalte seiner Plattform, nachdem herausgefunden wurde, dass KI-Unternehmen deren Daten aus dem digitalen Archiv auslesen, um Lizenzgebühren zu umgehen. Die Entscheidung spiegelt die zunehmende Bedeutung von Datenlizenzen als Einnahmequelle im Zeitalter der Künstlichen Intelligenz wider. Obwohl Reddit ursprünglich erklärt hatte, dass „gute Absichten“ wie die Internet Archive nicht behindert würden, hat man nun erhebliche Bedenken, da einige KI-Firmen angeblich über die Wayback Machine Zugriff auf Reddit-Inhalte erhalten, ohne die Plattformspolitiken zu respektieren. Die Internet Archive ist eine gemeinnützige Organisation, die seit Jahren daran arbeitet, die digitale Kultur der Welt zu archivieren – von Webseiten über Bücher bis hin zu Videos und Software. Ihr bekanntestes Werkzeug, die Wayback Machine, ermöglicht Nutzern, frühere Versionen von Webseiten einzusehen und zu vergleichen. Doch nun wird die Möglichkeit eingeschränkt: Reddit wird die Crawling-Zugriffe auf Detailseiten von Beiträgen, Kommentare und Nutzerprofile stoppen. Die Wayback Machine wird nur noch die Startseite von Reddit.com indizieren können – was praktisch bedeutet, dass nur noch Informationen über beliebte Themen und Nachrichtenarchivierungen möglich sind, nicht aber der Inhalt der Beiträge selbst. Ein Reddit-Sprecher, Tim Rathschmidt, erklärte gegenüber The Verge, dass das Unternehmen Hinweise auf missbräuchliche Nutzung durch KI-Unternehmen erhalten habe. „Internet Archive bietet eine Dienstleistung für das offene Web, aber wir sind auf Fälle aufmerksam geworden, in denen KI-Unternehmen Plattformrichtlinien verletzen, darunter unsere, und Daten aus der Wayback Machine auslesen“, sagte er. Bis die Internet Archive nachweisen könne, dass ihre Plattform die Plattformrichtlinien, insbesondere den Schutz der Privatsphäre und das Löschen entfernter Inhalte, einhalte, werde der Zugriff eingeschränkt. Die Maßnahme ist Teil einer umfassenderen Strategie von Reddit, den Zugriff auf seine Daten zu kontrollieren. Schon vorher hat das Unternehmen mit Google und OpenAI multimillionenschwere Verträge über Suchindexierung und KI-Trainingsdaten abgeschlossen. Im Juni 2023 hatte Reddit zudem den KI-Startup Anthropic verklagt, weil dieser angeblich weiterhin Daten aus Reddit scrapen würde, obwohl er das Gegenteil behauptet hatte. Auch die Änderungen am Reddit-API im Jahr 2023, die Drittanbieter-Apps zwangen, ihre Dienste einzustellen, waren Teil dieser Kontrollstrategie – hauptsächlich, weil die APIs zur KI-Trainingszwecken missbraucht wurden. Die Internet Archive reagierte zunächst nicht auf Anfragen, doch Mark Graham, Direktor der Wayback Machine, erklärte in einer Stellungnahme, dass man weiterhin in Gesprächen mit Reddit stehe und eine langfristige Zusammenarbeit anstrebe. Die neue Einschränkung tritt schrittweise ab dem 11. August in Kraft, nachdem Reddit die Internet Archive im Vorfeld über die Änderungen informiert hatte. Die Entscheidung unterstreicht den Spannungsbogen zwischen offener Zugänglichkeit digitaler Inhalte und dem wachsenden Druck, Daten für KI-Entwicklung zu monetarisieren.