HyperAIHyperAI
vor 17 Tagen

MambaVision: Ein hybrider Mamba-Transformer-Visions-Backbone

Ali Hatamizadeh, Jan Kautz
MambaVision: Ein hybrider Mamba-Transformer-Visions-Backbone
Abstract

Wir stellen einen neuartigen hybriden Mamba-Transformer-Backbone vor, der als MambaVision bezeichnet wird und speziell für visuelle Anwendungen konzipiert ist. Unser zentrales Beitrag besteht in der Neugestaltung der Mamba-Formulierung, um deren Fähigkeit zur effizienten Modellierung visueller Merkmale zu verbessern. Zudem führen wir eine umfassende Ablationsstudie zur Machbarkeit der Integration von Vision Transformers (ViT) mit Mamba durch. Unsere Ergebnisse zeigen, dass die Ausstattung der Mamba-Architektur mit mehreren Selbst-Attention-Blöcken in den letzten Schichten die Modellierungskapazität erheblich verbessert und somit langreichweitige räumliche Abhängigkeiten besser erfassen lässt. Auf Basis dieser Erkenntnisse führen wir eine Familie von MambaVision-Modellen mit hierarchischer Architektur ein, die unterschiedlichen Designkriterien gerecht werden. Für die Bildklassifizierung auf dem ImageNet-1K-Datensatz erreichen MambaVision-Modellvarianten eine neue State-of-the-Art-(SOTA)-Leistung sowohl hinsichtlich der Top-1-Accuracy als auch der Bild-Durchsatzrate. In nachgeschalteten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung auf den MS COCO- und ADE20K-Datensätzen übertrifft MambaVision vergleichbare Backbone-Architekturen mit ähnlicher Größe und zeigt eine günstigere Gesamtleistung. Code: https://github.com/NVlabs/MambaVision.

MambaVision: Ein hybrider Mamba-Transformer-Visions-Backbone | Neueste Forschungsarbeiten | HyperAI