منذ 17 أيام
مِي وَمِي مِكْس: تجميع متعدد الوسائط متعدد الزوايا من محولات التحويل
Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid

الملخص
يصف هذا التقرير النهج الذي اعتمدناه في حلنا الفائز في مسابقة التعرف على الحركات في Epic-Kitchens لعام 2022. يعتمد نهجنا على عملنا الأخير، وهو نموذج Multiview Transformer للتمييز في الفيديو (MTV)، ويقوم بتكيفه ليدعم الإدخال متعدد الوسائط. يتكون إرسالنا النهائي من مجموعة من نماذج MTV متعددة الوسائط (M&M) التي تختلف في أحجام الهياكل الأساسية ووسائط الإدخال. وقد حقق نهجنا دقة تبلغ 52.8% في التصنيف الأولي على مجموعة الاختبار من حيث فئات الحركات، وهي زيادة قدرها 4.1% مقارنة بالحل الفائز في العام الماضي.