Des éditeurs de presse restreignent l’accès à l’Internet Archive pour freiner le scraping par l’IA
À la suite de préoccupations croissantes concernant l’utilisation non autorisée de leurs contenus par les entreprises d’intelligence artificielle, plusieurs médias d’information, dont The Guardian et The New York Times, ont restreint l’accès de l’Internet Archive à leurs contenus. Cette mesure s’inscrit dans un contexte où les modèles d’intelligence artificielle s’appuient massivement sur des archives web pour s’entraîner, transformant des ressources censées être publiques en vecteurs potentiels de piratage de droits d’auteur. L’Internet Archive, dont la mission est de préserver l’histoire numérique du web via des outils comme la Machine du Temps (Wayback Machine), a vu ses robots de collecte de données devenir une cible stratégique. The Guardian a constaté que ses contenus étaient fréquemment ciblés par des bots de l’Internet Archive, notamment via ses APIs, qui offrent un accès structuré aux données. En réaction, le journal a décidé de bloquer l’accès de ces APIs et d’exclure ses articles du système d’URL de la Machine du Temps, tout en maintenant la visibilité de ses pages d’accueil et de thèmes. Robert Hahn, responsable des affaires commerciales, souligne que cette mesure vise à prévenir une « porte dérobée » pour les entreprises d’IA, même sans preuve concrète d’exploitation directe. Le Financial Times, lui, bloque tous les robots tentant d’accéder à son contenu payant, y compris ceux de l’Internet Archive, en raison de la nature protégée de ses articles. De même, The New York Times a ajouté le robot archive.org_bot à son fichier robots.txt en fin 2025, interdisant ainsi tout accès. Le journal insiste sur la nécessité de protéger son contenu, produit par des journalistes humains, contre une utilisation non autorisée, notamment par les IA. Ce phénomène s’étend à d’autres plateformes. En août 2024, Reddit a bloqué l’Internet Archive après avoir constaté que des entreprises d’IA extrayaient des données archivées, malgré l’absence de consentement. L’Internet Archive, bien que considéré comme un acteur de bonnes pratiques, se retrouve ainsi piégé dans un conflit entre la libre diffusion de l’information et la protection des droits de propriété intellectuelle. Le fondateur de l’Internet Archive, Brewster Kahle, dénonce ces restrictions comme une menace pour l’accès public au patrimoine numérique. Il rappelle que l’archive joue un rôle essentiel contre la désinformation, mais reconnaît que des mesures de sécurité, comme le rate-limiting et l’utilisation de Cloudflare, sont désormais mises en place pour limiter les accès massifs. Des analyses montrent que la Machine du Temps a effectivement été utilisée pour entraîner des modèles comme Google T5 ou Meta Llama. En 2023, une surcharge causée par un bot d’IA a provoqué une panne temporaire du service, avant que l’archive ne demande une utilisation responsable. Sur la base d’un échantillon de 1 167 sites d’information, Nieman Lab a constaté que 241 publications interdisent au moins un robot lié à l’Internet Archive, dont 212 appartiennent au groupe USA Today Co. (ex-Gannett), qui a mis en place des protocoles anti-scraping, bloquant 75 millions de bots d’IA en septembre 2025, dont 70 millions provenant d’OpenAI. Cette tendance s’accompagne d’un rejet massif de Common Crawl, autre projet d’archivage, ainsi que des bots d’OpenAI, Google AI et d’autres acteurs commerciaux. Malgré ces tensions, l’Internet Archive reste une institution incontournable pour la préservation numérique. Les médias, souvent incapables de sauvegarder eux-mêmes leur contenu, dépendent de son travail. Mais comme le souligne Hahn, « la bonne intention peut avoir des conséquences imprévues ». La question reste entière : comment concilier la libre accessibilité du patrimoine numérique avec la protection du travail journalistique dans l’ère de l’IA ?
