منذ 4 أشهر

UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer

{Anonymous}

الملخص

إن تعلُّم التمثيل المميّز الزماني-المكاني يُعدّ المشكلة الأساسية في فهم الفيديو. في الآونة الأخيرة، أظهرت نماذج المحولات البصرية (ViTs) قوتها في تعلُّم الاعتماديات الطويلة الأمد في الفيديو من خلال الانتباه الذاتي. لكنها تواجه قيودًا في معالجة التكرار المحلي في الفيديو، نظرًا لمقارنة عمياء على مستوى العالم بين الرموز (tokens). وقد نجح نموذج UniFormer في تخفيف هذه المشكلة من خلال دمج التصفية التلافيفية (convolution) والانتباه الذاتي كمُجمِّع علاقات في صيغة المحول. ومع ذلك، يتطلب هذا النموذج مرحلة تدريب مسبقة مُرهقة ومعقدة على الصور قبل تدريبه الدقيق (fine-tuning) على الفيديو، مما يعيق استخدامه الواسع في الممارسة العملية. في المقابل، تتوفر نماذج ViTs المفتوحة المصدر بسهولة، وتم تدريبها جيدًا باستخدام إشراف غني على الصور. استنادًا إلى هذه الملاحظات، نقترح منهجية عامة لبناء عائلة قوية من شبكات الفيديو، من خلال تزويد نماذج ViTs المُدرَّبة مسبقًا بتصميمات UniFormer الفعالة. ونُسمّي هذه العائلة UniFormerV2، نظرًا لاحتفاظها بنمطها البسيط المميز في وحدة UniFormer. لكنها تحتوي على مُجمِّعات علاقات محلية وعالمية جديدة تمامًا، مما يتيح توازنًا مفضَّلًا بين الدقة والحساب من خلال دمج سلس للميزات المتميزة لكل من ViTs وUniFormer. وبلا أي إضافات زائدة، حققت نماذج UniFormerV2 أداءً متفوّقًا على مستوى الحالة (state-of-the-art) في 8 معايير شهيرة للفيديو، تشمل Kinetics-400/600/700 المرتبطة بالمشاهد، وMoments in Time، وSomething-Something V1/V2 المرتبطة بالزمن، وActivityNet غير المُقَصَّر وHACS. وبشكل خاص، هي أول نموذج يحقق دقة أعلى من 90% في الدرجة الأولى (top-1) على Kinetics-400، إلى أقصى ما نعلم. سيتم الإفراج عن النماذج لاحقًا.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
action-classification-on-activitynet	UniFormerV2-L	Top 1 Accuracy: 94.7 Top 5 Accuracy: 99.5
action-classification-on-kinetics-400	UniFormerV2-L (ViT-L, 336)	Acc@1: 90.0 Acc@5: 98.4 FLOPs (G) x views: 75300x3x2 Parameters (M): 354
action-classification-on-kinetics-600	UniFormerV2-L	Top-1 Accuracy: 90.1 Top-5 Accuracy: 98.5
action-classification-on-kinetics-700	UniFormerV2-L	Top-1 Accuracy: 82.7 Top-5 Accuracy: 96.2
action-classification-on-moments-in-time	UniFormerV2-L	Top 1 Accuracy: 47.8 Top 5 Accuracy: 76.9
action-recognition-in-videos-on-something	UniFormerV2-L	GFLOPs: 5154 Top-1 Accuracy: 73.0 Top-5 Accuracy: 94.5
action-recognition-in-videos-on-something-1	UniFormerV2-L	Top 1 Accuracy: 62.7 Top 5 Accuracy: 88.0
action-recognition-on-hacs	UniFormerV2-L	Top 1 Accuracy: 95.5 Top 5 Accuracy: 99.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp