HyperAIHyperAI
منذ 2 أشهر

SpeechNAS: نحو توازن أفضل بين التأخير والدقة في التحقق من هوية المتحدث على نطاق واسع

Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu
SpeechNAS: نحو توازن أفضل بين التأخير والدقة في التحقق من هوية المتحدث على نطاق واسع
الملخص

في الآونة الأخيرة، أصبحت تقنية x-vector نهجًا ناجحًا وشائعًا في التحقق من هوية المتحدث، حيث تستخدم شبكة عصبية ذات تأخير زمني (TDNN) وتجميع الإحصائيات لاستخراج متجه تمثيلي للمتحدث من مقاطع صوتية متغيرة الطول. تحسين تقنية x-vector كان مجال بحث نشط، وقد تم تصميم شبكات عصبية ضخمة بشكل دقيق على أساس x-vector، مثل TDNN الموسعة (E-TDNN)، TDNN المجزأة (F-TDNN)، وTDNN المتصلة كثيفًا (D-TDNN). في هذا العمل، حاولنا تحديد أفضل الهياكل من فضاء البحث القائم على TDNN باستخدام بحث هندسة الشبكة العصبية (NAS)، والتي أطلق عليها اسم SpeechNAS. استفادةً من التقدم الحديث في مجال التعرف على المتحدث، مثل تجميع الإحصائيات من الرتب العليا، آلية الفروع المتعددة، D-TDNN وخسارة softmax مع الهامش الزاوي الإضافي (AAM) مع الحد الأدنى للطاقة الفائقة الكروية (MHE)، اكتشفت SpeechNAS خمسة هياكل شبكة عصبية بشكل آلي، من SpeechNAS-1 إلى SpeechNAS-5، تحتوي على عدد مختلف من المعالم وأداء حسابي يبلغ عدة مليارات من العمليات العائمة (GFLOPs) على مجموعة بيانات VoxCeleb1 للتعرف على المتحدث المستقل عن النص والكبيرة الحجم. حققت الشبكة العصبية الأفضل التي اشتقتها طريقة خطأ متساوية (EER) قدرها 1.02% على مجموعة الاختبار القياسية لـ VoxCeleb1، مما يتفوق بشكل كبير على الأساليب الأكثر تقدمًا القائمة على TDNN سابقًا. يمكن الوصول إلى الكود والأوزان المدربة عبر الرابط: https://github.com/wentaozhu/speechnas.git