Command Palette
Search for a command to run...
القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية
القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية
Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg
الملخص
بسبب التقدم المحرز في التعلم ذاتي التوجيه للصوت، تحققت أنظمة الكشف الحديثة عن الصوت الاصطناعي أداءً متميزًا بانخفاض كبير في معدلات الأخطاء على المعايير الشهيرة مثل ASVspoof. ومع ذلك، فإن المعايير السابقة لا تأخذ بعين الاعتبار التنوّع الواسع للظروف الواقعية في الصوت. هل تُعدّ معدلات الأخطاء المُعلنة واقعية في البيئات الحقيقية؟ ولتقييم أنماط فشل الكاشفات ومتانتها في ظل تغيرات موزونة في التوزيع، نقدّم ShiftySpeech، وهو معيار يحتوي على أكثر من 3000 ساعة من الصوت الاصطناعي من 7 مجالات، و6 أنظمة تحويل النص إلى صوت (TTS)، و12 مُولّد صوت (vocoder)، و3 لغات. ووجدنا أن جميع تغيرات التوزيع أدت إلى تدهور في أداء النماذج، وخلافًا للنتائج السابقة، فإن التدريب على مولدات صوت أكثر، أو متحدثين أكثر، أو باستخدام تقنيات تكبير البيانات (data augmentation) لم يُعد ضمانًا لتحسين التعميم. بل على العكس، وجدنا أن التدريب على بيانات أقل تنوعًا أدى إلى تعميم أفضل، وأن كاشفًا تم تكييفه باستخدام عينات من مُولّد صوت واحد تم اختياره بعناية، وبعدد قليل من المتكلمين، دون استخدام تقنيات تكبير البيانات، حقق أفضل النتائج المُسجّلة على المعيار الصعب In-the-Wild.