Command Palette
Search for a command to run...
التعلم متعدد المهام للكشف عن المتكلم النشط الصوتي البصري
التعلم متعدد المهام للكشف عن المتكلم النشط الصوتي البصري
Shiguang Shan Shuang Yang Jingyun Xiao Yuanhang Zhang
الملخص
يصف هذا التقرير النهج الذي يُعدّ أساسًا لتقديمنا في مهمة تحديد المُتحدث النشط (المهمة B-2) ضمن مسابقة ActivityNet Challenge 2019. نقدم نموذجًا صوتيًا-بصريًا جديدًا يُبنى على نموذج بصري ثلاثي الأبعاد من نوع 3D-ResNet18، تم تدريبه مسبقًا على قراءة الشفاه، ونموذج صوتي من نوع VGG-M، تم تدريبه مسبقًا على مزامنة الصوت مع الفيديو. يتم تدريب النموذج باستخدام خانتين من الخسائر بطريقة التعلم متعدد المهام: خسارة تقابلية (contrastive loss) لتعزيز التوافق بين السمات الصوتية والبصرية للمتحدثين النشطين، وخسارة التباديل التقليدية (cross-entropy loss) للحصول على تسميات المتحدثين/غير المتحدثين. وقد حقق هذا النموذج تقييمًا بنسبة 84.0% في مؤشر mAP على مجموعة التحقق من AVAActiveSpeaker. وتُظهر النتائج التجريبية قدرة التضمينات المُدرّبة مسبقًا على الانتقال بين المهام وتنسيقات البيانات المختلفة، فضلًا عن الميزة التي يوفرها الاستراتيجية المقترحة للتعلم متعدد المهام.