التعلم متعدد المهام للكشف عن المتكلم النشط الصوتي البصري

يصف هذا التقرير النهج الذي يُعدّ أساسًا لتقديمنا في مهمة تحديد المُتحدث النشط (المهمة B-2) ضمن مسابقة ActivityNet Challenge 2019. نقدم نموذجًا صوتيًا-بصريًا جديدًا يُبنى على نموذج بصري ثلاثي الأبعاد من نوع 3D-ResNet18، تم تدريبه مسبقًا على قراءة الشفاه، ونموذج صوتي من نوع VGG-M، تم تدريبه مسبقًا على مزامنة الصوت مع الفيديو. يتم تدريب النموذج باستخدام خانتين من الخسائر بطريقة التعلم متعدد المهام: خسارة تقابلية (contrastive loss) لتعزيز التوافق بين السمات الصوتية والبصرية للمتحدثين النشطين، وخسارة التباديل التقليدية (cross-entropy loss) للحصول على تسميات المتحدثين/غير المتحدثين. وقد حقق هذا النموذج تقييمًا بنسبة 84.0% في مؤشر mAP على مجموعة التحقق من AVAActiveSpeaker. وتُظهر النتائج التجريبية قدرة التضمينات المُدرّبة مسبقًا على الانتقال بين المهام وتنسيقات البيانات المختلفة، فضلًا عن الميزة التي يوفرها الاستراتيجية المقترحة للتعلم متعدد المهام.