Creative Commons soutient provisoirement les systèmes de paiement pour le scraping par les IA
Creative Commons a annoncé un soutien provisoire à l’idée de systèmes « pay-to-crawl » pour l’intelligence artificielle. Après avoir présenté plus tôt cette année un cadre pour un écosystème de l’IA ouvert, l’organisation à but non lucratif s’est déclarée « prudemment favorable » à cette technologie, qui vise à automatiser la rémunération des sites web chaque fois qu’un robot d’IA, comme un webcrawler, accède à leur contenu. Creative Commons, connue pour avoir porté le mouvement des licences libres permettant aux créateurs de partager leurs œuvres tout en conservant leurs droits d’auteur, a dévoilé en juillet un plan visant à instaurer un cadre juridique et technique pour le partage de jeux de données entre les entreprises détentrices de données et les fournisseurs d’IA souhaitant les utiliser pour entraîner leurs modèles. À présent, elle s’engage dans une nouvelle phase en soutenant, avec réserve, les systèmes « pay-to-crawl ». Selon un billet publié sur son site, ces systèmes, s’ils sont mis en œuvre de manière responsable, pourraient permettre aux sites web de maintenir la création et la diffusion de leurs contenus, tout en gérant les usages substitutifs — une menace croissante pour la visibilité des contenus en ligne. Sans ces mécanismes, certains contenus risquent de disparaître derrière des paywalls encore plus restrictifs, ou de ne plus être partagés du tout. L’idée repose sur une révolution du modèle économique actuel. Jusqu’ici, les sites web autorisaient gratuitement les crawlers des moteurs de recherche comme Google à indexer leurs contenus, en échange d’un trafic accru. Aujourd’hui, avec l’essor des chatbots d’IA, les utilisateurs obtiennent souvent leurs réponses directement dans l’interface de l’IA, sans jamais cliquer sur la source originale. Ce changement a déjà eu un impact dévastateur sur les éditeurs, en réduisant drastiquement le trafic issu des moteurs de recherche. Un système « pay-to-crawl » pourrait aider les éditeurs à compenser cette perte, en leur permettant de facturer les bots d’IA pour chaque accès à leur contenu. Il pourrait aussi bénéficier aux petits éditeurs, qui manquent souvent de pouvoir de négociation face aux géants de l’IA, contrairement aux grandes ententes récentes — comme celles entre OpenAI et Condé Nast, Axel Springer, ou Meta et divers médias. Toutefois, Creative Commons souligne plusieurs risques. Une telle approche pourrait concentrer davantage le pouvoir sur le web, limiter l’accès pour des acteurs à but non lucratif, des chercheurs, des institutions culturelles ou des éducateurs. Pour éviter ces dérives, l’organisation propose des principes clés : ne pas imposer le « pay-to-crawl » par défaut, éviter des règles universelles, permettre le ralentissement (throttling) plutôt que le blocage total, préserver l’accès au public, et s’appuyer sur des systèmes ouverts, interopérables et basés sur des normes partagées. Cloudflare, pionnier de cette technologie, n’est pas seul dans ce domaine. Microsoft développe également un marché dédié aux éditeurs d’IA, tandis que des startups comme ProRata.ai et TollBit s’impliquent dans le secteur. Un autre projet, le RSL Collective, a lancé une norme appelée Really Simple Licensing (RSL), qui précise quels contenus peuvent être explorés par les crawlers, sans les bloquer. Cette norme a déjà été adoptée par Cloudflare, Akamai et Fastly, et soutenue par des groupes comme Yahoo, Ziff Davis et O’Reilly Media. Creative Commons a également appuyé RSL, en tant que membre du projet CC Signals, une initiative plus large visant à développer des outils technologiques adaptés à l’ère de l’IA.
