هل تتجه أبحاث كشف الصوت الاصطناعي في الاتجاه الصحيح؟

أدت التعلم الآلي، وبشكل عام النماذج الذكية الاصطناعية، إلى تقدم كبير في كل مجال من مجالات علوم الحاسوب، حيث زادت من دقة النماذج التنبؤية في أي مشكلة معروفة. في الواقع، مكّنت هذه التطورات من بناء إطار عمل وحلول فعّالة يمكن استخدامها في السياقات التحقيقية والعلمية الجنائية لاكتشاف المحتوى المزيف، وبشكل عام الكشف عن التلاعب في المحتوى المتعدد الوسائط. من ناحية أخرى، هل يمكننا الثقة بهذه الأنظمة؟ هل تسير الأنشطة البحثية في الاتجاه الصحيح؟ هل نحن فقط نستفيد من الفواكه السهلة الوصول دون أخذ في الاعتبار العديد من الحالات الواقعية التي تحدث في البيئة الحقيقية؟ يهدف هذا البحث إلى إصدار نداء تحذيري للمجتمع البحثي في السياق المحدد لكشف الصوت المزيف، حيث لا تتوفر كميات كافية من البيانات التدريبية لضمان الثقة الكافية في التقنيات المذكورة في الأدبيات الحالية. ولتحقيق هذا الهدف، تم إجراء تحقيق استكشافي للبيانات الأكثر شيوعًا في مجال تزوير الصوت، وتبين بشكل مفاجئ أن بناء تصنيفات بسيطة دون استخدام تقنيات التعلم العميق كان ممكنًا بسهولة. وقد اتضح أن ملاحظات بسيطة حول معدل البت (bitrate) كانت كافية لتحقيق أداء فعّال في الكشف.