HyperAIHyperAI
Back to Headlines

Reddit bloque l'Internet Archive dans sa tentative d'archivage

il y a 10 jours

Reddit a décidé de limiter l’accès de l’Internet Archive à la majeure partie de ses contenus, en bloquant le robot de navigation de la Wayback Machine sur la plupart des pages du site, notamment les articles détaillés, les commentaires et les profils. Cette mesure, qui s’applique à compter d’aujourd’hui, intervient après que Reddit a découvert que certaines entreprises d’intelligence artificielle (IA) utilisaient la Wayback Machine pour récupérer illégalement des données publiées sur le site, contournant ainsi ses politiques et ses accords de licence. Bien que Reddit ait initialement considéré l’Internet Archive comme un acteur de bonne foi, il a changé d’avis en constatant que des entreprises d’IA exploitaient la base de données archivée pour entraîner leurs modèles sans autorisation ni paiement. L’Internet Archive, organisme à but non lucratif, a pour mission de préserver des milliards de pages web, livres, vidéos et logiciels dans une bibliothèque numérique accessible au public. Son outil phare, la Wayback Machine, permet aux utilisateurs de consulter des versions antérieures de sites internet à des dates précises. Cependant, Reddit affirme que certains utilisateurs de la Wayback Machine ont été impliqués dans des pratiques de collecte de données en violation de ses règles, notamment en ne respectant pas la suppression de contenus par les utilisateurs ou en exploitant des données archivées sans consentement. Selon un porte-parole de Reddit, Tim Rathschmidt, « jusqu’à ce que l’Internet Archive puisse garantir la conformité avec nos politiques — notamment en matière de respect de la vie privée et de suppression des contenus supprimés — nous limiterons son accès aux données Reddit pour protéger les utilisateurs ». À compter de maintenant, la Wayback Machine ne pourra plus indexer que la page d’accueil de Reddit, ce qui réduit son archivage à des informations très générales, comme les titres d’articles les plus populaires à un moment donné. Cette décision s’inscrit dans une stratégie plus large de Reddit visant à contrôler et monétiser l’accès à ses données. L’entreprise a déjà conclu des accords multimillionnaires avec Google et OpenAI pour l’entraînement d’IA et l’indexation dans les moteurs de recherche. En 2023, elle avait modifié son API, provoquant la fermeture de nombreuses applications tierces, en partie pour freiner l’exploitation de ses données à des fins d’IA. En juin, Reddit a même poursuivi l’entreprise d’IA Anthropic, accusée de continuer à scraper ses contenus malgré ses dénégations. L’Internet Archive a été informé à l’avance de ces restrictions, selon Reddit. Mark Graham, directeur de la Wayback Machine, a répondu en soulignant la relation longue et continue entre les deux entités, tout en indiquant qu’elles poursuivent des discussions sur la question. Cette situation illustre le conflit croissant entre la préservation numérique du patrimoine internet et les intérêts commerciaux des plateformes face à l’essor de l’intelligence artificielle, où le contrôle des données est devenu une source majeure de revenus.

Related Links

Reddit bloque l'Internet Archive dans sa tentative d'archivage | Gros titres | HyperAI