HyperAIHyperAI

Command Palette

Search for a command to run...

MambaVision : un squelette visuel hybride Mamba-Transformer

Ali Hatamizadeh Jan Kautz

Résumé

Nous proposons un nouveau modèle hybride Mamba-Transformer, dénommé MambaVision, spécifiquement conçu pour les applications visuelles. Notre contribution principale réside dans la réinvention de la formulation Mamba afin d’améliorer sa capacité à modéliser efficacement les caractéristiques visuelles. Par ailleurs, nous menons une étude ablation approfondie sur la faisabilité de l’intégration des Vision Transformers (ViT) avec Mamba. Nos résultats démontrent qu’équiper l’architecture Mamba de plusieurs blocs d’attention auto-associative dans les couches finales améliore considérablement sa capacité de modélisation, notamment pour capturer les dépendances spatiales à longue portée. À partir de ces constatations, nous introduisons une famille de modèles MambaVision reposant sur une architecture hiérarchique, afin de répondre à divers critères de conception. Pour la classification d’images sur le jeu de données ImageNet-1K, les variantes de MambaVision atteignent une nouvelle performance d’état de l’art (SOTA) en termes de précision Top-1 et de débit d’images. Sur des tâches downstream telles que la détection d’objets, la segmentation d’instances et la segmentation sémantique sur les jeux de données MS COCO et ADE20K, MambaVision surpasse les architectures de référence de taille comparable et présente des performances nettement plus favorables. Code : https://github.com/NVlabs/MambaVision.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp