HyperAIHyperAI

Command Palette

Search for a command to run...

ESPnet-SPK: أداة متكاملة لإنشاء تمثيلات المتكلم بخطوات كاملة، تشمل وصفات قابلة للتكرار، وواجهات أمامية ذاتية التدريب، ونماذج جاهزة للاستخدام

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

الملخص

يقدم هذا البحث أداة ESPnet-SPK، وهي أداة مصممة لتحقيق عدة أهداف في تدريب مستخرجات التضمين الصوتي للمتحدثين. أولاً، نقدم منصة مفتوحة المصدر للباحثين في مجتمع التعرف على المتكلمين، تُمكّنهم من إنشاء النماذج بسهولة. ونقدّم مجموعة من النماذج، تمتد من نموذج x-vector إلى النماذج الحديثة مثل SKA-TDNN. وبفضل التصميم المعياري المُنظّم، يمكن تطوير نسخ متعددة بسهولة. كما نسعى إلى ربط النماذج المتطورة بمناحٍ أخرى، مما يسهل على المجتمع البحثي الأوسع دمج مستخرجات التضمين المتطورة بسهولة. ويمكن الوصول إلى مستخرجات التضمين المُدرّبة مسبقًا بشكل جاهز، ونُظهر مرونة الأداة من خلال عرض تكاملها مع مهامين مختلفين. ويُعد هدف آخر هو دمج الأداة مع ميزات تعلّم ذاتي متنوعة. ونُطلق وصفة قابلة للتكرار تحقق معدل خطأ متساوٍ (EER) بنسبة 0.39٪ على بروتوكول التقييم Vox1-O باستخدام WavLM-Large مع ECAPA-TDNN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ESPnet-SPK: أداة متكاملة لإنشاء تمثيلات المتكلم بخطوات كاملة، تشمل وصفات قابلة للتكرار، وواجهات أمامية ذاتية التدريب، ونماذج جاهزة للاستخدام | مستندات | HyperAI