في دفاع عن التعلم القياسي للتعرف على المتكلم

يهدف هذا البحث إلى التعرف على المُتكلِّمين في بيئة "مُفتوحة المجموعة" (open-set) على مُتكلِّمين جُدد، حيث ينبغي أن تكون المُدمجات المثالية قادرة على تجميع المعلومات في تمثيل مكثّف على مستوى الجملة، يتميز بمسافة داخلية صغيرة بين مُتكلِّمين نفس الشخص ومسافة خارجية كبيرة بين مُتكلِّمين مختلفين.إحدى المعتقدات الشائعة في مجال التعرف على المُتكلِّمين هي أن الشبكات العصبية التي تُدرَّب باستخدام أهداف تصنيفية تتفوّق على مناهج التعلم القياسي (metric learning). في هذا البحث، نقدّم تقييمًا شاملاً لأهم دوال الخسارة المستخدمة في التعرف على المُتكلِّمين على مجموعة بيانات VoxCeleb. ونُظهِر أن دالة المثلث البحتة (vanilla triplet loss) تُظهر أداءً تنافسيًا مقارنةً بدوال الخسارة القائمة على التصنيف، وأن النماذج المُدرَّبة باستخدام الهدف المقترح للتعلم القياسي تتفوّق على أحدث الطرق المُعتمدة في المجال.