VideoMamba : Modèle d'espace d'état pour une compréhension vidéo efficace

Pour faire face aux défis doubles de la redondance locale et des dépendances globales dans la compréhension vidéo, cette étude adapte de manière innovante le Mamba au domaine vidéo. Le VideoMamba proposé surmonte les limitations des réseaux neuronaux convolutifs 3D existants et des transformateurs vidéo. Son opérateur à complexité linéaire permet une modélisation à long terme efficace, ce qui est crucial pour la compréhension de vidéos longues et en haute résolution. Des évaluations approfondies révèlent quatre capacités fondamentales du VideoMamba : (1) Évolutivité dans le domaine visuel sans préformation extensive sur de grands ensembles de données, grâce à une nouvelle technique d'auto-distillation ; (2) Sensibilité pour reconnaître des actions à court terme même avec des différences de mouvement fines ; (3) Supériorité dans la compréhension vidéo à long terme, montrant des avancées significatives par rapport aux modèles traditionnels basés sur les caractéristiques ; et (4) Compatibilité avec d'autres modalités, démontrant sa robustesse dans des contextes multi-modaux. Grâce à ces avantages distincts, le VideoMamba établit un nouveau standard pour la compréhension vidéo, offrant une solution évolutuelle et efficace pour une compréhension vidéo complète. L'ensemble du code et des modèles est disponible sur https://github.com/OpenGVLab/VideoMamba.