{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

الملخص
بسبب التقدم المحرز في التعلم ذاتي التوجيه للصوت، تحققت أنظمة الكشف الحديثة عن الصوت الاصطناعي أداءً متميزًا بانخفاض كبير في معدلات الأخطاء على المعايير الشهيرة مثل ASVspoof. ومع ذلك، فإن المعايير السابقة لا تأخذ بعين الاعتبار التنوّع الواسع للظروف الواقعية في الصوت. هل تُعدّ معدلات الأخطاء المُعلنة واقعية في البيئات الحقيقية؟ ولتقييم أنماط فشل الكاشفات ومتانتها في ظل تغيرات موزونة في التوزيع، نقدّم ShiftySpeech، وهو معيار يحتوي على أكثر من 3000 ساعة من الصوت الاصطناعي من 7 مجالات، و6 أنظمة تحويل النص إلى صوت (TTS)، و12 مُولّد صوت (vocoder)، و3 لغات. ووجدنا أن جميع تغيرات التوزيع أدت إلى تدهور في أداء النماذج، وخلافًا للنتائج السابقة، فإن التدريب على مولدات صوت أكثر، أو متحدثين أكثر، أو باستخدام تقنيات تكبير البيانات (data augmentation) لم يُعد ضمانًا لتحسين التعميم. بل على العكس، وجدنا أن التدريب على بيانات أقل تنوعًا أدى إلى تعميم أفضل، وأن كاشفًا تم تكييفه باستخدام عينات من مُولّد صوت واحد تم اختياره بعناية، وبعدد قليل من المتكلمين، دون استخدام تقنيات تكبير البيانات، حقق أفضل النتائج المُسجّلة على المعيار الصعب In-the-Wild.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.