HyperAIHyperAI
منذ 17 أيام

UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer

{Anonymous}
UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer
الملخص

إن تعلُّم التمثيل المميّز الزماني-المكاني يُعدّ المشكلة الأساسية في فهم الفيديو. في الآونة الأخيرة، أظهرت نماذج المحولات البصرية (ViTs) قوتها في تعلُّم الاعتماديات الطويلة الأمد في الفيديو من خلال الانتباه الذاتي. لكنها تواجه قيودًا في معالجة التكرار المحلي في الفيديو، نظرًا لمقارنة عمياء على مستوى العالم بين الرموز (tokens). وقد نجح نموذج UniFormer في تخفيف هذه المشكلة من خلال دمج التصفية التلافيفية (convolution) والانتباه الذاتي كمُجمِّع علاقات في صيغة المحول. ومع ذلك، يتطلب هذا النموذج مرحلة تدريب مسبقة مُرهقة ومعقدة على الصور قبل تدريبه الدقيق (fine-tuning) على الفيديو، مما يعيق استخدامه الواسع في الممارسة العملية. في المقابل، تتوفر نماذج ViTs المفتوحة المصدر بسهولة، وتم تدريبها جيدًا باستخدام إشراف غني على الصور. استنادًا إلى هذه الملاحظات، نقترح منهجية عامة لبناء عائلة قوية من شبكات الفيديو، من خلال تزويد نماذج ViTs المُدرَّبة مسبقًا بتصميمات UniFormer الفعالة. ونُسمّي هذه العائلة UniFormerV2، نظرًا لاحتفاظها بنمطها البسيط المميز في وحدة UniFormer. لكنها تحتوي على مُجمِّعات علاقات محلية وعالمية جديدة تمامًا، مما يتيح توازنًا مفضَّلًا بين الدقة والحساب من خلال دمج سلس للميزات المتميزة لكل من ViTs وUniFormer. وبلا أي إضافات زائدة، حققت نماذج UniFormerV2 أداءً متفوّقًا على مستوى الحالة (state-of-the-art) في 8 معايير شهيرة للفيديو، تشمل Kinetics-400/600/700 المرتبطة بالمشاهد، وMoments in Time، وSomething-Something V1/V2 المرتبطة بالزمن، وActivityNet غير المُقَصَّر وHACS. وبشكل خاص، هي أول نموذج يحقق دقة أعلى من 90% في الدرجة الأولى (top-1) على Kinetics-400، إلى أقصى ما نعلم. سيتم الإفراج عن النماذج لاحقًا.

UniFormerV2: التعلّم الفراغي الزمني من خلال تزويد ViTs الصورية بـ Video UniFormer | أحدث الأوراق البحثية | HyperAI