
الملخص
تستكشف هذه الورقة تطبيق إطار عمل wav2vec2 على التعرف على المتكلم بدلاً من التعرف على الكلام. ندرس فعالية الأوزان المُدرَّبة مسبقًا في مهمة التعرف على المتكلم، وكيفية تجميع تسلسل الإخراج من wav2vec2 إلى تمثيل ثابت الطول للمتكلم. ولتكيف الإطار مع مهمة التعرف على المتكلم، نقترح نسخة فردية للتصنيف باستخدام خسارة CE أو AAM Softmax، بالإضافة إلى نسخة ثنائية التسجيل باستخدام خسارة BCE. وتحقيقًا لأفضل أداء، تُظهر النسخة w2v2-aam تحسنًا بنسبة 1.88% في معدل الخطأ الخاطئ (EER) على مجموعة اختبار VoxCeleb1 الموسعة، مقارنةً بـ 1.69% باستخدام النموذج الأساسي ECAPA-TDNN. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط: https://github.com/nikvaessen/w2v2-speaker.