MambaVision : un squelette visuel hybride Mamba-Transformer

Nous proposons un nouveau modèle hybride Mamba-Transformer, dénommé MambaVision, spécifiquement conçu pour les applications visuelles. Notre contribution principale réside dans la réinvention de la formulation Mamba afin d’améliorer sa capacité à modéliser efficacement les caractéristiques visuelles. Par ailleurs, nous menons une étude ablation approfondie sur la faisabilité de l’intégration des Vision Transformers (ViT) avec Mamba. Nos résultats démontrent qu’équiper l’architecture Mamba de plusieurs blocs d’attention auto-associative dans les couches finales améliore considérablement sa capacité de modélisation, notamment pour capturer les dépendances spatiales à longue portée. À partir de ces constatations, nous introduisons une famille de modèles MambaVision reposant sur une architecture hiérarchique, afin de répondre à divers critères de conception. Pour la classification d’images sur le jeu de données ImageNet-1K, les variantes de MambaVision atteignent une nouvelle performance d’état de l’art (SOTA) en termes de précision Top-1 et de débit d’images. Sur des tâches downstream telles que la détection d’objets, la segmentation d’instances et la segmentation sémantique sur les jeux de données MS COCO et ADE20K, MambaVision surpasse les architectures de référence de taille comparable et présente des performances nettement plus favorables. Code : https://github.com/NVlabs/MambaVision.