AtlanticがAI学習用音楽の検索DBを公開
Atlantic紙のAlex Reisner報道記者は、AIモデルの学習に使用されている音楽データの検索可能データベースを公開した。発見された4つのデータセットは計2,300万曲以上を含み、最大の2つはそれぞれ1,200万曲、900万曲に達する。これらのデータは既に数千回ダウンロードされており、GoogleおよびStability AIが関連研究論文で学習データとして利用していることが確認されている。 データ提供元には「Free Music Archive」など、個人利用は許容されるが商用利用にはライセンスが必要なソースも含まれる。しかし実際には、データセットの大半がYouTubeやSpotifyへのリンクリストとして配布されており、開発者は自動化ツールを用いてこれらをダウンロードしている。同氏によれば、こうしたツールはログイン認証や広告表示を回避し、クリエイターの収益機会を損なうため、プラットフォームの利用規約に違反すると指摘されている。対象楽曲にはLady Gaga、Fred Again..、Radiohead、Wu-Tang Clan、Bruce Springsteenなど、多様なジャンルのアーティストが含まれる。 公開されたデータベースはAtlanticの監視サイト「AI Watchdog」上で誰でも検索可能である。生成AIの開発が加速する中で、学習データの収集実態と著作権・利用規約の是非は業界の主要な論点となっている。今回の可視化は、AI開発企業のデータ取得手法に対する透明性を高め、今後の法整備や業界ガイドライン策定に影響を与える可能性がある。
