Command Palette
Search for a command to run...
في دفاع عن التعلم القياسي للتعرف على المتكلم
في دفاع عن التعلم القياسي للتعرف على المتكلم
Joon Son Chung Jaesung Huh Seongkyu Mun Minjae Lee Hee Soo Heo Soyeon Choe Chiheon Ham Sunghwan Jung Bong-Jin Lee Icksang Han
الملخص
يهدف هذا البحث إلى التعرف على المُتكلِّمين في بيئة "مُفتوحة المجموعة" (open-set) على مُتكلِّمين جُدد، حيث ينبغي أن تكون المُدمجات المثالية قادرة على تجميع المعلومات في تمثيل مكثّف على مستوى الجملة، يتميز بمسافة داخلية صغيرة بين مُتكلِّمين نفس الشخص ومسافة خارجية كبيرة بين مُتكلِّمين مختلفين.إحدى المعتقدات الشائعة في مجال التعرف على المُتكلِّمين هي أن الشبكات العصبية التي تُدرَّب باستخدام أهداف تصنيفية تتفوّق على مناهج التعلم القياسي (metric learning). في هذا البحث، نقدّم تقييمًا شاملاً لأهم دوال الخسارة المستخدمة في التعرف على المُتكلِّمين على مجموعة بيانات VoxCeleb. ونُظهِر أن دالة المثلث البحتة (vanilla triplet loss) تُظهر أداءً تنافسيًا مقارنةً بدوال الخسارة القائمة على التصنيف، وأن النماذج المُدرَّبة باستخدام الهدف المقترح للتعلم القياسي تتفوّق على أحدث الطرق المُعتمدة في المجال.