HyperAIHyperAI

Command Palette

Search for a command to run...

ViViT: نموذج تحويل البصرية للفيديو

Anurag Arnab Mostafa Dehghani Georg Heigold Chen Sun Mario Lučić Cordelia Schmid

الملخص

نقدّم نماذج تعتمد بالكامل على المحولات (transformer) لتصنيف الفيديو، مستفيدين من النجاح الأخير لهذه النماذج في تصنيف الصور. تعتمد النموذج على استخراج رموز زمنية-مكانية (spatio-temporal tokens) من الفيديو المدخل، والتي تُشفَّر بسلسلة من طبقات المحولات. ولمعالجة التسلسلات الطويلة من الرموز التي تنشأ في الفيديو، نقترح عدة نماذج مُعدَّلة بكفاءة تُفكِّك الأبعاد المكانية والزمنية للمدخل. وعلى الرغم من أن النماذج القائمة على المحولات معروفة بأنها فعالة فقط عند توفر مجموعات تدريب كبيرة، نُظهر كيف يمكننا تنظيم النموذج بشكل فعّال أثناء التدريب، واستغلال النماذج المُدرَّبة مسبقًا على الصور لتمكين التدريب على مجموعات بيانات صغيرة نسبيًا. أجرينا دراسات تحليلية معمقة (ablation studies)، وحققنا نتائج رائدة في مجال التصنيف على عدة معايير للفيديو، بما في ذلك Kinetics 400 و600، وEpic Kitchens، وSomething-Something v2، وMoments in Time، حيث تفوقنا على الأساليب السابقة القائمة على الشبكات العميقة ثلاثية الأبعاد (3D convolutional networks). ولتمكين الأبحاث المستقبلية، نُطلق الكود على الرابط التالي: https://github.com/google-research/scenic/tree/main/scenic/projects/vivit


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp