HyperAIHyperAI
منذ 17 أيام

ViViT: نموذج تحويل البصرية للفيديو

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid
ViViT: نموذج تحويل البصرية للفيديو
الملخص

نقدّم نماذج تعتمد بالكامل على المحولات (transformer) لتصنيف الفيديو، مستفيدين من النجاح الأخير لهذه النماذج في تصنيف الصور. تعتمد النموذج على استخراج رموز زمنية-مكانية (spatio-temporal tokens) من الفيديو المدخل، والتي تُشفَّر بسلسلة من طبقات المحولات. ولمعالجة التسلسلات الطويلة من الرموز التي تنشأ في الفيديو، نقترح عدة نماذج مُعدَّلة بكفاءة تُفكِّك الأبعاد المكانية والزمنية للمدخل. وعلى الرغم من أن النماذج القائمة على المحولات معروفة بأنها فعالة فقط عند توفر مجموعات تدريب كبيرة، نُظهر كيف يمكننا تنظيم النموذج بشكل فعّال أثناء التدريب، واستغلال النماذج المُدرَّبة مسبقًا على الصور لتمكين التدريب على مجموعات بيانات صغيرة نسبيًا. أجرينا دراسات تحليلية معمقة (ablation studies)، وحققنا نتائج رائدة في مجال التصنيف على عدة معايير للفيديو، بما في ذلك Kinetics 400 و600، وEpic Kitchens، وSomething-Something v2، وMoments in Time، حيث تفوقنا على الأساليب السابقة القائمة على الشبكات العميقة ثلاثية الأبعاد (3D convolutional networks). ولتمكين الأبحاث المستقبلية، نُطلق الكود على الرابط التالي: https://github.com/google-research/scenic/tree/main/scenic/projects/vivit

ViViT: نموذج تحويل البصرية للفيديو | أحدث الأوراق البحثية | HyperAI