Creative Commons lance CC signals, un cadre pour un écosystème AI ouvert
L'organisation à but non lucratif Creative Commons, pionnière dans le domaine des licences permettant aux créateurs de partager leurs œuvres tout en gardant les droits d'auteur, se prépare maintenant à l’ère de l'intelligence artificielle (IA). Mercredi, elle a annoncé le lancement d'un nouveau projet baptisé CC signals, visant à permettre aux détenteurs de données de préciser comment leur contenu peut ou ne peut pas être réutilisé par les machines, notamment pour entrainer des modèles d'IA. Cette initiative cherche à créer un équilibre entre la nature ouverte d'Internet et la demande croissante de données pour nourrir les technologies d'IA. SelonCreative Commons, la constante extraction de données menace l'ouverture d'Internet, poussant les entités à protéger leurs sites derrière des murs payants plutôt que de partager leurs ressources. Le projet CC signals propose une solution juridique et technique destinée à fournir un cadre pour le partage de données entre ceux qui en ont le contrôle et ceux qui les utilisent pour former des IA. Cette solution répond à un besoin croissant alors que les entreprises peinent à ajuster leurs politiques et termes de service pour limiter l'utilisation de leurs données à l’entraînement des modèles d'IA ou pour clarifier dans quelle mesure elles utiliseront les données des utilisateurs à des fins liées à l’IA. Des plateformes comme X ont initialement adopté des politiques ouvertes permettant aux tiers d'utiliser leurs données publiques pour former des modèles d'IA, avant de revenir sur leur décision. Reddit, quant à lui, utilise son fichier robots.txt, généralement destiné à informer les robots d'exploration web s'ils peuvent accéder à son site, pour restreindre les bots d'IA de scraper ses données. Cloudflare envisage également une solution consistant à facturer l'accès aux bots d'IA et à développer des outils pour les dérouter. Par ailleurs, des développeurs open source ont créé des outils permettant de ralentir et gaspiller les ressources des bots d'IA qui ne respectaient pas leurs directives "no crawl". CC signals, en revanche, propose une alternative basée sur un ensemble d'outils offrant une variété de niveaux de respect juridique, mais tous porteurs d'un poids éthique comparable aux licences CC qui couvrent aujourd'hui des milliards d’œuvres créatives partagées librement en ligne. "Les signaux CC sont conçus pour maintenir les communs à l’ère de l’IA", a déclaré Anna Tumadóttir, PDG de Creative Commons, lors de l’annonce. "Tout comme les licences CC ont aidé à construire le web ouvert, nous croyons que les signaux CC aideront à modeler un écosystème d'IA ouvert, fondé sur la réciprocité." Le projet est encore en phase de développement initial. Les premiers concepts et designs ont été publiés sur le site web de Creative Commons et sa page GitHub. L'organisation recherche activement les commentaires du public en prévision d’un lancement alpha (test précoce) prévu en novembre 2025. Elle organisera également une série de réunions publiques afin de recueillir des retours et répondre aux questions. En somme, CC signals représente une étape importante pour préserver l'ouverture et l'éthique d'Internet, tout en répondant aux défis posés par l’IA. Ce cadre vise à instaurer une transparence et une collaboration plus grandes entre les détenteurs de données et les acteurs de l’IA, favorisant ainsi une utilisation responsable et mutuellement bénéfique des ressources numériques.