HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل الفيديو التوقُّعي

Rohit Girdhar Kristen Grauman

الملخص

نُقدّم نموذج Anticipative Video Transformer (AVT)، وهو معمارية نمذجة فيديو قائمة على الانتباه ومتعددة المراحل، تُركّز على المشاهدات السابقة في الفيديو للتنبؤ بالإجراءات المستقبلية. يتم تدريب النموذج بشكل مشترك لتنبؤ الإجراء التالي في تسلسل الفيديو، مع التعلّم في الوقت نفسه لمشغلات ترميز الميزات الإطارية التي تكون تنبؤية لميزات الإطارات المستقبلية المتتالية. مقارنةً بالاستراتيجيات الزمنية الحالية لدمج المعلومات، يتم يتميّز AVT بقدرته على الحفاظ على التسلسل التسلسلي للإجراءات الملاحظة، في الوقت الذي يُسهم فيه في اكتشاف الاعتماديات على المدى الطويل—وهذان العنصران بالغان الأهمية لمهام التنبؤ. من خلال تجارب واسعة النطاق، نُظهر أن AVT يحقق أفضل أداء مُبلغ عنه على أربع معايير شهيرة لتنبؤ الإجراءات: EpicKitchens-55، EpicKitchens-100، EGTEA Gaze+، و50-Salads؛ كما يفوز بالمركز الأول في تحدي EpicKitchens-100 ضمن مؤتمر CVPR'21.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp