Suite Video Mamba : Modèle d’espace d’état comme alternative polyvalente pour la compréhension vidéo

Comprendre les vidéos constitue l'une des directions fondamentales de la recherche en vision par ordinateur, au cours de laquelle de nombreux efforts ont été consacrés à l'exploration de diverses architectures, telles que les réseaux de neurones récurrents (RNN), les réseaux de neurones convolutifs 3D (3D CNN) et les Transformers. L'architecture récemment proposée basée sur les modèles d'espace d'état, comme Mamba, présente des caractéristiques prometteuses pour étendre son succès dans la modélisation de séquences longues à la tâche de compréhension vidéo. Afin d'évaluer si Mamba peut constituer une alternative viable aux Transformers dans le domaine de la compréhension vidéo, nous menons dans ce travail une série exhaustive d'études, explorant les différents rôles que Mamba peut jouer dans la modélisation vidéo, tout en examinant diverses tâches où il pourrait offrir un avantage. Nous classifions Mamba en quatre rôles distincts pour la modélisation vidéo, ce qui donne lieu à une suite de modèles et modules dénommée Video Mamba Suite, comprenant 14 modèles, dont l'évaluation est réalisée sur 12 tâches de compréhension vidéo. Nos expérimentations approfondies révèlent un fort potentiel de Mamba, tant pour les tâches exclusivement vidéo que pour les tâches vidéo-langage, tout en démontrant des compromis prometteurs entre efficacité et performance. Nous espérons que ce travail fournira des points de données et des insights précieux pour les recherches futures en compréhension vidéo. Le code source est disponible publiquement : https://github.com/OpenGVLab/video-mamba-suite.