HyperAIHyperAI
منذ 17 أيام

مِي وَمِي مِكْس: تجميع متعدد الوسائط متعدد الزوايا من محولات التحويل

Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid
مِي وَمِي مِكْس: تجميع متعدد الوسائط متعدد الزوايا من محولات التحويل
الملخص

يصف هذا التقرير النهج الذي اعتمدناه في حلنا الفائز في مسابقة التعرف على الحركات في Epic-Kitchens لعام 2022. يعتمد نهجنا على عملنا الأخير، وهو نموذج Multiview Transformer للتمييز في الفيديو (MTV)، ويقوم بتكيفه ليدعم الإدخال متعدد الوسائط. يتكون إرسالنا النهائي من مجموعة من نماذج MTV متعددة الوسائط (M&M) التي تختلف في أحجام الهياكل الأساسية ووسائط الإدخال. وقد حقق نهجنا دقة تبلغ 52.8% في التصنيف الأولي على مجموعة الاختبار من حيث فئات الحركات، وهي زيادة قدرها 4.1% مقارنة بالحل الفائز في العام الماضي.