ESPnet-SPK: أداة متكاملة لإنشاء تمثيلات المتكلم بخطوات كاملة، تشمل وصفات قابلة للتكرار، وواجهات أمامية ذاتية التدريب، ونماذج جاهزة للاستخدام

يقدم هذا البحث أداة ESPnet-SPK، وهي أداة مصممة لتحقيق عدة أهداف في تدريب مستخرجات التضمين الصوتي للمتحدثين. أولاً، نقدم منصة مفتوحة المصدر للباحثين في مجتمع التعرف على المتكلمين، تُمكّنهم من إنشاء النماذج بسهولة. ونقدّم مجموعة من النماذج، تمتد من نموذج x-vector إلى النماذج الحديثة مثل SKA-TDNN. وبفضل التصميم المعياري المُنظّم، يمكن تطوير نسخ متعددة بسهولة. كما نسعى إلى ربط النماذج المتطورة بمناحٍ أخرى، مما يسهل على المجتمع البحثي الأوسع دمج مستخرجات التضمين المتطورة بسهولة. ويمكن الوصول إلى مستخرجات التضمين المُدرّبة مسبقًا بشكل جاهز، ونُظهر مرونة الأداة من خلال عرض تكاملها مع مهامين مختلفين. ويُعد هدف آخر هو دمج الأداة مع ميزات تعلّم ذاتي متنوعة. ونُطلق وصفة قابلة للتكرار تحقق معدل خطأ متساوٍ (EER) بنسبة 0.39٪ على بروتوكول التقييم Vox1-O باستخدام WavLM-Large مع ECAPA-TDNN.