منذ 6 أشهر

الملخص

يصف هذا التقرير النهج الذي اعتمدناه في حلنا الفائز في مسابقة التعرف على الحركات في Epic-Kitchens لعام 2022. يعتمد نهجنا على عملنا الأخير، وهو نموذج Multiview Transformer للتمييز في الفيديو (MTV)، ويقوم بتكيفه ليدعم الإدخال متعدد الوسائط. يتكون إرسالنا النهائي من مجموعة من نماذج MTV متعددة الوسائط (M&M) التي تختلف في أحجام الهياكل الأساسية ووسائط الإدخال. وقد حقق نهجنا دقة تبلغ 52.8% في التصنيف الأولي على مجموعة الاختبار من حيث فئات الحركات، وهي زيادة قدرها 4.1% مقارنة بالحل الفائز في العام الماضي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار