
نُقدّم نموذج Anticipative Video Transformer (AVT)، وهو معمارية نمذجة فيديو قائمة على الانتباه ومتعددة المراحل، تُركّز على المشاهدات السابقة في الفيديو للتنبؤ بالإجراءات المستقبلية. يتم تدريب النموذج بشكل مشترك لتنبؤ الإجراء التالي في تسلسل الفيديو، مع التعلّم في الوقت نفسه لمشغلات ترميز الميزات الإطارية التي تكون تنبؤية لميزات الإطارات المستقبلية المتتالية. مقارنةً بالاستراتيجيات الزمنية الحالية لدمج المعلومات، يتم يتميّز AVT بقدرته على الحفاظ على التسلسل التسلسلي للإجراءات الملاحظة، في الوقت الذي يُسهم فيه في اكتشاف الاعتماديات على المدى الطويل—وهذان العنصران بالغان الأهمية لمهام التنبؤ. من خلال تجارب واسعة النطاق، نُظهر أن AVT يحقق أفضل أداء مُبلغ عنه على أربع معايير شهيرة لتنبؤ الإجراءات: EpicKitchens-55، EpicKitchens-100، EGTEA Gaze+، و50-Salads؛ كما يفوز بالمركز الأول في تحدي EpicKitchens-100 ضمن مؤتمر CVPR'21.