HyperAIHyperAI

Command Palette

Search for a command to run...

The Atlantic publie les musiques formant l'IA

Le magazine The Atlantic a publié une base de données consultable retraçant les ensembles musicaux utilisés pour entraîner les modèles d'intelligence artificielle. Ce projet, mené par le journaliste Alex Reisner, a permis d'identifier et de rendre accessibles au public quatre jeux de données majeurs. Deux d'entre eux sont particulièrement volumineux, comptant respectivement douze et neuf millions de titres, tandis que les deux autres en contiennent plus de cent mille chacun. Selon les informations recueillies, ces ensembles ont été téléchargés à des milliers d'exemplaires. Bien que l'identification précise des utilisateurs demeure complexe, Google et Stability AI ont confirmé dans des publications scientifiques l'utilisation de ces données dans le cadre de leurs recherches. Certains de ces fichiers proviennent de plateformes comme le Free Music Archive, accessibles gratuitement pour un usage personnel mais soumis à des restrictions de licence pour une exploitation commerciale. L'accès à ces données ne se limite cependant pas à un simple téléchargement. Trois des ensembles identifiés se présentent sous la forme de listes de liens vers des morceaux hébergés sur YouTube ou Spotify. Pour les exploiter, les développeurs recourent à des outils automatisés qui extraient les fichiers audio, contournant parfois les systèmes d'authentification, les publicités et les mécanismes de monétisation qui protègent les revenus des artistes et des plateformes. Cette pratique constitue une violation des conditions d'utilisation de ces services. Les artistes représentés dans ces bases sont nombreux et emblématiques, allant de Lady Gaga et Fred Again.. à Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen ou encore le compositeur expérimental Hainbach. Le site AI Watchdog de The Atlantic propose désormais au public de naviguer librement dans ces collections ainsi que dans d'autres types de contenus, tels que des livres, employés pour former les systèmes d'intelligence artificielle actuels. Cette initiative soulève des questions croissantes sur les droits d'auteur, la transparence des données d'entraînement et l'éthique dans le développement des modèles génératifs.

Liens associés