HyperAIHyperAI
منذ 11 أيام

في دفاع عن التعلم القياسي للتعرف على المتكلم

Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han
في دفاع عن التعلم القياسي للتعرف على المتكلم
الملخص

يهدف هذا البحث إلى التعرف على المُتكلِّمين في بيئة "مُفتوحة المجموعة" (open-set) على مُتكلِّمين جُدد، حيث ينبغي أن تكون المُدمجات المثالية قادرة على تجميع المعلومات في تمثيل مكثّف على مستوى الجملة، يتميز بمسافة داخلية صغيرة بين مُتكلِّمين نفس الشخص ومسافة خارجية كبيرة بين مُتكلِّمين مختلفين.إحدى المعتقدات الشائعة في مجال التعرف على المُتكلِّمين هي أن الشبكات العصبية التي تُدرَّب باستخدام أهداف تصنيفية تتفوّق على مناهج التعلم القياسي (metric learning). في هذا البحث، نقدّم تقييمًا شاملاً لأهم دوال الخسارة المستخدمة في التعرف على المُتكلِّمين على مجموعة بيانات VoxCeleb. ونُظهِر أن دالة المثلث البحتة (vanilla triplet loss) تُظهر أداءً تنافسيًا مقارنةً بدوال الخسارة القائمة على التصنيف، وأن النماذج المُدرَّبة باستخدام الهدف المقترح للتعلم القياسي تتفوّق على أحدث الطرق المُعتمدة في المجال.

في دفاع عن التعلم القياسي للتعرف على المتكلم | أحدث الأوراق البحثية | HyperAI