HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية

{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية

الملخص

بسبب التقدم المحرز في التعلم ذاتي التوجيه للصوت، تحققت أنظمة الكشف الحديثة عن الصوت الاصطناعي أداءً متميزًا بانخفاض كبير في معدلات الأخطاء على المعايير الشهيرة مثل ASVspoof. ومع ذلك، فإن المعايير السابقة لا تأخذ بعين الاعتبار التنوّع الواسع للظروف الواقعية في الصوت. هل تُعدّ معدلات الأخطاء المُعلنة واقعية في البيئات الحقيقية؟ ولتقييم أنماط فشل الكاشفات ومتانتها في ظل تغيرات موزونة في التوزيع، نقدّم ShiftySpeech، وهو معيار يحتوي على أكثر من 3000 ساعة من الصوت الاصطناعي من 7 مجالات، و6 أنظمة تحويل النص إلى صوت (TTS)، و12 مُولّد صوت (vocoder)، و3 لغات. ووجدنا أن جميع تغيرات التوزيع أدت إلى تدهور في أداء النماذج، وخلافًا للنتائج السابقة، فإن التدريب على مولدات صوت أكثر، أو متحدثين أكثر، أو باستخدام تقنيات تكبير البيانات (data augmentation) لم يُعد ضمانًا لتحسين التعميم. بل على العكس، وجدنا أن التدريب على بيانات أقل تنوعًا أدى إلى تعميم أفضل، وأن كاشفًا تم تكييفه باستخدام عينات من مُولّد صوت واحد تم اختياره بعناية، وبعدد قليل من المتكلمين، دون استخدام تقنيات تكبير البيانات، حقق أفضل النتائج المُسجّلة على المعيار الصعب In-the-Wild.

مستودعات الكود

Ashigarg123/ShiftySpeech
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
القليل هو أكثر في كشف الصوت الاصطناعي في البيئة البرية | الأوراق البحثية | HyperAI