HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer

{Anonymous}

UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer

الملخص

إن تعلُّم التمثيل المميّز الزماني-المكاني يُعدّ المشكلة الأساسية في فهم الفيديو. في الآونة الأخيرة، أظهرت نماذج المحولات البصرية (ViTs) قوتها في تعلُّم الاعتماديات الطويلة الأمد في الفيديو من خلال الانتباه الذاتي. لكنها تواجه قيودًا في معالجة التكرار المحلي في الفيديو، نظرًا لمقارنة عمياء على مستوى العالم بين الرموز (tokens). وقد نجح نموذج UniFormer في تخفيف هذه المشكلة من خلال دمج التصفية التلافيفية (convolution) والانتباه الذاتي كمُجمِّع علاقات في صيغة المحول. ومع ذلك، يتطلب هذا النموذج مرحلة تدريب مسبقة مُرهقة ومعقدة على الصور قبل تدريبه الدقيق (fine-tuning) على الفيديو، مما يعيق استخدامه الواسع في الممارسة العملية. في المقابل، تتوفر نماذج ViTs المفتوحة المصدر بسهولة، وتم تدريبها جيدًا باستخدام إشراف غني على الصور. استنادًا إلى هذه الملاحظات، نقترح منهجية عامة لبناء عائلة قوية من شبكات الفيديو، من خلال تزويد نماذج ViTs المُدرَّبة مسبقًا بتصميمات UniFormer الفعالة. ونُسمّي هذه العائلة UniFormerV2، نظرًا لاحتفاظها بنمطها البسيط المميز في وحدة UniFormer. لكنها تحتوي على مُجمِّعات علاقات محلية وعالمية جديدة تمامًا، مما يتيح توازنًا مفضَّلًا بين الدقة والحساب من خلال دمج سلس للميزات المتميزة لكل من ViTs وUniFormer. وبلا أي إضافات زائدة، حققت نماذج UniFormerV2 أداءً متفوّقًا على مستوى الحالة (state-of-the-art) في 8 معايير شهيرة للفيديو، تشمل Kinetics-400/600/700 المرتبطة بالمشاهد، وMoments in Time، وSomething-Something V1/V2 المرتبطة بالزمن، وActivityNet غير المُقَصَّر وHACS. وبشكل خاص، هي أول نموذج يحقق دقة أعلى من 90% في الدرجة الأولى (top-1) على Kinetics-400، إلى أقصى ما نعلم. سيتم الإفراج عن النماذج لاحقًا.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
action-classification-on-activitynetUniFormerV2-L
Top 1 Accuracy: 94.7
Top 5 Accuracy: 99.5
action-classification-on-kinetics-400UniFormerV2-L (ViT-L, 336)
Acc@1: 90.0
Acc@5: 98.4
FLOPs (G) x views: 75300x3x2
Parameters (M): 354
action-classification-on-kinetics-600UniFormerV2-L
Top-1 Accuracy: 90.1
Top-5 Accuracy: 98.5
action-classification-on-kinetics-700UniFormerV2-L
Top-1 Accuracy: 82.7
Top-5 Accuracy: 96.2
action-classification-on-moments-in-timeUniFormerV2-L
Top 1 Accuracy: 47.8
Top 5 Accuracy: 76.9
action-recognition-in-videos-on-somethingUniFormerV2-L
GFLOPs: 5154
Top-1 Accuracy: 73.0
Top-5 Accuracy: 94.5
action-recognition-in-videos-on-something-1UniFormerV2-L
Top 1 Accuracy: 62.7
Top 5 Accuracy: 88.0
action-recognition-on-hacsUniFormerV2-L
Top 1 Accuracy: 95.5
Top 5 Accuracy: 99.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer | الأوراق البحثية | HyperAI