مجموعة Video Mamba: نموذج الحالة كبديل متعدد الاستخدامات لفهم الفيديو

فهم الفيديو يُعد أحد الاتجاهات الأساسية في بحوث الرؤية الحاسوبية، وقد تم بذل جهود واسعة لاستكشاف هياكل متنوعة مثل RNN و3D CNN وTransformers. تُظهر البنية الجديدة المُقترحة لنموذج الفضاء الحالة، مثل Mamba، خصائص واعدة تمتد بفضل نجاحها في نمذجة التسلسلات الطويلة إلى مجال نمذجة الفيديو. ولتقييم ما إذا كان بإمكان Mamba أن يكون بديلاً عمليًا لـ Transformers في مجال فهم الفيديو، نقوم في هذه الدراسة بسلسلة شاملة من التجارب، نستكشف الأدوار المختلفة التي يمكن أن يلعبها Mamba في نمذجة الفيديو، مع التحقيق في المهام المتنوعة التي قد يُظهر فيها Mamba تفوقًا. نصنف Mamba إلى أربع أدوار لنمذجة الفيديو، ونستنتج مجموعة Video Mamba المكوَّنة من 14 نموذجًا/وحدة، ونُقيّمها على 12 مهمة في فهم الفيديو. تُظهر تجاربنا الواسعة الإمكانات القوية لـ Mamba في المهام التي تعتمد فقط على الفيديو، وكذلك المهام المتعددة الوسائط (الفيديو-اللغة)، مع إظهار توازن واعد بين الكفاءة والأداء. نأمل أن تُقدِّم هذه الدراسة نقاط بيانات ورؤى قيّمة للبحث المستقبلي في مجال فهم الفيديو. الكود مفتوح المصدر: https://github.com/OpenGVLab/video-mamba-suite.