HyperAIHyperAI

Command Palette

Search for a command to run...

مِي وَمِي مِكْس: تجميع متعدد الوسائط متعدد الزوايا من محولات التحويل

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

الملخص

يصف هذا التقرير النهج الذي اعتمدناه في حلنا الفائز في مسابقة التعرف على الحركات في Epic-Kitchens لعام 2022. يعتمد نهجنا على عملنا الأخير، وهو نموذج Multiview Transformer للتمييز في الفيديو (MTV)، ويقوم بتكيفه ليدعم الإدخال متعدد الوسائط. يتكون إرسالنا النهائي من مجموعة من نماذج MTV متعددة الوسائط (M&M) التي تختلف في أحجام الهياكل الأساسية ووسائط الإدخال. وقد حقق نهجنا دقة تبلغ 52.8% في التصنيف الأولي على مجموعة الاختبار من حيث فئات الحركات، وهي زيادة قدرها 4.1% مقارنة بالحل الفائز في العام الماضي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مِي وَمِي مِكْس: تجميع متعدد الوسائط متعدد الزوايا من محولات التحويل | مستندات | HyperAI