MVFNet: شبكة تكامل مناظر متعددة للتعرف الفعّال على الفيديو

بشكل تقليدي، تمثل نماذج النمذجة المكانية الزمنية وتعقيدها الموضوعين الرئيسيين اللذين يجذبان الاهتمام الأكبر في مجال التعرف على الإجراءات في الفيديو. وقد حققت الطرق الحالية الأفضل في الأداء من حيث الدقة، بغض النظر عن التعقيد، في حين أن الحلول الفعّالة للنمذجة المكانية الزمنية تُظهر أداءً أقل تفوقًا من حيث الأداء. في هذه الورقة، نسعى إلى تحقيق الكفاءة والفعالية معًا في آن واحد. أولاً، بالإضافة إلى معالجة إطارات الفيديو بحجم H × W × T باعتبارها إشارة مكانية زمنية (من منظور المستوى المكاني Height-Width)، نقترح أيضًا نمذجة الفيديو من خلال المستويين الآخرين: Height-Time و Width-Time، بهدف استكشاف الديناميكيات في الفيديو بشكل شامل. ثانيًا، تم تصميم نموذجنا بناءً على الهياكل الأساسية من نوع CNN ثنائي الأبعاد (2D CNN)، مع الحفاظ على التعقيد النموذجي من الناحية التصميمية. بشكل خاص، نقدّم وحدة جديدة تُسمى "دمج متعددة الأوجه" (MVF) للاستفادة من الديناميكيات في الفيديو باستخدام الت convolution المنفصلة لتحسين الكفاءة. تُعد هذه الوحدة قابلة للتركيب والتشغيل الفوري (plug-and-play)، ويمكن إدراجها في نماذج 2D CNN الجاهزة لتكوين نموذج بسيط لكنه فعّال يُسمى MVFNet. علاوةً على ذلك، يمكن اعتبار MVFNet إطارًا عامًا لنمذجة الفيديو، ويمكن تخصيصه ليصبح منهجيات موجودة مثل C2D و SlowOnly و TSM حسب الإعدادات المختلفة. أُجريت تجارب واسعة على معايير شهيرة (مثل Something-Something V1 & V2، Kinetics، UCF-101، و HMDB-51) لإثبات تفوقه. ويُظهر MVFNet أداءً يُعد من أفضل الأداء في المجال، مع الحفاظ على تعقيد نماذج 2D CNN.