منذ 11 أيام

في دفاع عن التعلم القياسي للتعرف على المتكلم

Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han

عرض تفاصيل الورقة البحثية

في دفاع عن التعلم القياسي للتعرف على المتكلم

الملخص

يهدف هذا البحث إلى التعرف على المُتكلِّمين في بيئة "مُفتوحة المجموعة" (open-set) على مُتكلِّمين جُدد، حيث ينبغي أن تكون المُدمجات المثالية قادرة على تجميع المعلومات في تمثيل مكثّف على مستوى الجملة، يتميز بمسافة داخلية صغيرة بين مُتكلِّمين نفس الشخص ومسافة خارجية كبيرة بين مُتكلِّمين مختلفين.إحدى المعتقدات الشائعة في مجال التعرف على المُتكلِّمين هي أن الشبكات العصبية التي تُدرَّب باستخدام أهداف تصنيفية تتفوّق على مناهج التعلم القياسي (metric learning). في هذا البحث، نقدّم تقييمًا شاملاً لأهم دوال الخسارة المستخدمة في التعرف على المُتكلِّمين على مجموعة بيانات VoxCeleb. ونُظهِر أن دالة المثلث البحتة (vanilla triplet loss) تُظهر أداءً تنافسيًا مقارنةً بدوال الخسارة القائمة على التصنيف، وأن النماذج المُدرَّبة باستخدام الهدف المقترح للتعلم القياسي تتفوّق على أحدث الطرق المُعتمدة في المجال.