منذ 6 أشهر

الملخص

نُقدّم نموذج Anticipative Video Transformer (AVT)، وهو معمارية نمذجة فيديو قائمة على الانتباه ومتعددة المراحل، تُركّز على المشاهدات السابقة في الفيديو للتنبؤ بالإجراءات المستقبلية. يتم تدريب النموذج بشكل مشترك لتنبؤ الإجراء التالي في تسلسل الفيديو، مع التعلّم في الوقت نفسه لمشغلات ترميز الميزات الإطارية التي تكون تنبؤية لميزات الإطارات المستقبلية المتتالية. مقارنةً بالاستراتيجيات الزمنية الحالية لدمج المعلومات، يتم يتميّز AVT بقدرته على الحفاظ على التسلسل التسلسلي للإجراءات الملاحظة، في الوقت الذي يُسهم فيه في اكتشاف الاعتماديات على المدى الطويل—وهذان العنصران بالغان الأهمية لمهام التنبؤ. من خلال تجارب واسعة النطاق، نُظهر أن AVT يحقق أفضل أداء مُبلغ عنه على أربع معايير شهيرة لتنبؤ الإجراءات: EpicKitchens-55، EpicKitchens-100، EGTEA Gaze+، و50-Salads؛ كما يفوز بالمركز الأول في تحدي EpicKitchens-100 ضمن مؤتمر CVPR'21.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار