HyperAIHyperAI

Command Palette

Search for a command to run...

القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية

Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg

الملخص

بسبب التقدم المحرز في التعلم ذاتي التوجيه للصوت، تحققت أنظمة الكشف الحديثة عن الصوت الاصطناعي أداءً متميزًا بانخفاض كبير في معدلات الأخطاء على المعايير الشهيرة مثل ASVspoof. ومع ذلك، فإن المعايير السابقة لا تأخذ بعين الاعتبار التنوّع الواسع للظروف الواقعية في الصوت. هل تُعدّ معدلات الأخطاء المُعلنة واقعية في البيئات الحقيقية؟ ولتقييم أنماط فشل الكاشفات ومتانتها في ظل تغيرات موزونة في التوزيع، نقدّم ShiftySpeech، وهو معيار يحتوي على أكثر من 3000 ساعة من الصوت الاصطناعي من 7 مجالات، و6 أنظمة تحويل النص إلى صوت (TTS)، و12 مُولّد صوت (vocoder)، و3 لغات. ووجدنا أن جميع تغيرات التوزيع أدت إلى تدهور في أداء النماذج، وخلافًا للنتائج السابقة، فإن التدريب على مولدات صوت أكثر، أو متحدثين أكثر، أو باستخدام تقنيات تكبير البيانات (data augmentation) لم يُعد ضمانًا لتحسين التعميم. بل على العكس، وجدنا أن التدريب على بيانات أقل تنوعًا أدى إلى تعميم أفضل، وأن كاشفًا تم تكييفه باستخدام عينات من مُولّد صوت واحد تم اختياره بعناية، وبعدد قليل من المتكلمين، دون استخدام تقنيات تكبير البيانات، حقق أفضل النتائج المُسجّلة على المعيار الصعب In-the-Wild.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp