HyperAIHyperAI
منذ 2 أشهر

VideoMamba: نموذج الفضاء الحالة لفهم الفيديو بكفاءة

Li, Kunchang ; Li, Xinhao ; Wang, Yi ; He, Yinan ; Wang, Yali ; Wang, Limin ; Qiao, Yu
VideoMamba: نموذج الفضاء الحالة لفهم الفيديو بكفاءة
الملخص

في مواجهة التحديات المزدوجة للترديد المحلي والارتباطات العالمية في فهم الفيديو، يكيف هذا العمل بشكل مبتكر تقنية Mamba إلى مجال الفيديو. يتجاوز VideoMamba المقترح حدود الشبكات العصبية التقليدية ذات الإ convoالوشن ثلاثية الأبعاد والمتحولات الفيديوية الحالية. حيث يمكن لمؤثره ذي التعقيد الخطي تحقيق نمذجة طويلة الأمد بكفاءة، وهو أمر حاسم لفهم الفيديوهات الطويلة بدقة عالية. تكشف التقييمات الواسعة عن أربع قدرات أساسية لـ VideoMamba: (1) القدرة على التوسع في المجال البصري دون الحاجة إلى تدريب مكثف على مجموعات بيانات ضخمة بفضل تقنية التقطير الذاتي الجديدة؛ (2) الحساسية في تحديد الأنشطة قصيرة المدة حتى مع الاختلافات الدقيقة في الحركة؛ (3) التفوق في فهم الفيديو طويل المدة، مما يظهر تقدماً كبيراً على النماذج التقليدية القائمة على السمات؛ و (4) التوافق مع الوسائط الأخرى، مما يدل على متانة عالية في السياقات متعددة الوسائط. من خلال هذه المزايا المميزة، يضع VideoMamba معيارًا جديدًا لفهم الفيديو، ويقدم حلًا قابلًا للتوسع وكفءًا لتحقيق فهم شامل للفيديو. جميع الكود والنماذج متاحة على الرابط https://github.com/OpenGVLab/VideoMamba.