أتلانتيك ينشر قاعدة بيانات موسيقية لتدريب الذكاء الاصطناعي
كشف تحقيق تقني في مجلة ذا أتلانتيك عن إنشاء قاعدة بيانات قابلة للبحث تحتوي على أربع مجموعات ضخمة من البيانات الموسيقية تُستخدم بشكل متكرر في تدريب نماذج الذكاء الاصطناعي. ويقود هذا الكشف الصحفي أليكس رايسنر، الذي رصد مجموعات تتراوح أحجامها بين أكثر من مائة ألف أغنية، وصولاً إلى اثني عشر مليون ومليونين وتسعة ملايين مسجلة صوتية. وأكدت شركتا غوغل واستيبلتي في أوراق بحثية معتمدة استخدامهما لهذه المكتبات، التي تم تحميلها آلاف المرات عبر شبكات التشارك، مما يبرز اعتماد الصناعة على بيانات موسيقية غير مرخصة تجارياً في كثير من الأحيان. يسلط التقرير الضوء على الثغرات الإجرائية والقانونية في استخراج هذه البيانات، حيث تنتشر غالبية المجموعات على شكل روابط مباشرة منصات يوتيوب وسبوتيفاي. ويعتمد مطورو النماذج الذكية على أدوات آلية لتحميل الملفات الصوتية، متجاوزين بروتوكولات المصادقة والإعلانات وآليات التتبع المالي المخصصة لدعم الفنانين، وهو إجراء يخالف بشكل صريح شروط خدمة المنصات الاستماعية. وتشمل السجلات الموسيقية المعروضة أعمالاً لفنانين عالميين من أمثال لايدي غاغا، فريد أغيرن، راديوهيد، آفكس تن، وو تانغ كلاين، وبلو سبرينغستين، ومؤلف الموسيقى التجريبية هاينباخ. يتيح الموقع الإلكتروني للمراقب الآلي التابع لـ ذا أتلانتيك للجمهور والمحققين فحص هذه المواد وتحليل مصادر تدريب النماذج، في خطوة تهدف إلى تعزيز الشفافية في قطاع الذكاء الاصطناعي. وتأتي هذه المبادرة في ظل تصاعد الضغوط التنظيمية العالمية بشأن حقوق الملكية الفكرية، مما يعزز الدعوات المطالبة بوضوح تراخيص البيانات وإلزام الشركات التقنية باحترام النماذج الاقتصادية المبتكرة عند استخدام الأعمال الفنية المعاصرة في تطوير أنظمة التوليد الذكي.
