MAAS: التخصيص متعدد الوسائط لاكتشاف المتحدث النشط

اكتشاف المتحدث النشط يتطلب دمجًا متينًا للإشارات المتعددة الأوضاع (multi-modal cues).بينما يمكن للأوضاع الفردية تقريب حل، فإن التوقعات الدقيقةلا يمكن تحقيقها إلا من خلال دمج صريح للميزات الصوتية والبصرية ونمذجة تقدمها الزمني. على الرغم من طبيعتها المتعددة الأوضاع بشكل متأصل،تظل الطرق الحالية تركز على نمذجة ودمج الميزات السمعية-البصرية قصيرة المدىلمتحدثين فرديين، غالبًا على مستوى الإطار. في هذا البحث، نقدمنهجًا جديدًا لاكتشاف المتحدث النشط يعالج مباشرةً الطابع المتعدد الأوضاع للمشكلة، ويوفر استراتيجية بسيطةحيث يتم تعيين الميزات البصرية المستقلة من المتحدثين المحتملين في المشهدلحدث كلامي تم اكتشافه سابقًا. تظهر تجاربنا أن بنية بيانات الرسم البياني الصغيرة التي تم بناؤها من إطار واحد فقط، تسمح بتقريب مشكلة التعيين السمعي-البصري الفوري. علاوة على ذلك، فإن توسيع هذه البنية البيانية الأولية زمنيًا يحقق أداءً جديدًا يتفوق على الحالة الحالية للفن (state-of-the-art) في مجموعة بيانات AVA-ActiveSpeaker بمتوسط دقة (mAP) بنسبة 88.8%.