HyperAIHyperAI

Command Palette

Search for a command to run...

MambaVision: Ein hybrider Mamba-Transformer-Visions-Backbone

Ali Hatamizadeh Jan Kautz

Zusammenfassung

Wir stellen einen neuartigen hybriden Mamba-Transformer-Backbone vor, der als MambaVision bezeichnet wird und speziell für visuelle Anwendungen konzipiert ist. Unser zentrales Beitrag besteht in der Neugestaltung der Mamba-Formulierung, um deren Fähigkeit zur effizienten Modellierung visueller Merkmale zu verbessern. Zudem führen wir eine umfassende Ablationsstudie zur Machbarkeit der Integration von Vision Transformers (ViT) mit Mamba durch. Unsere Ergebnisse zeigen, dass die Ausstattung der Mamba-Architektur mit mehreren Selbst-Attention-Blöcken in den letzten Schichten die Modellierungskapazität erheblich verbessert und somit langreichweitige räumliche Abhängigkeiten besser erfassen lässt. Auf Basis dieser Erkenntnisse führen wir eine Familie von MambaVision-Modellen mit hierarchischer Architektur ein, die unterschiedlichen Designkriterien gerecht werden. Für die Bildklassifizierung auf dem ImageNet-1K-Datensatz erreichen MambaVision-Modellvarianten eine neue State-of-the-Art-(SOTA)-Leistung sowohl hinsichtlich der Top-1-Accuracy als auch der Bild-Durchsatzrate. In nachgeschalteten Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung auf den MS COCO- und ADE20K-Datensätzen übertrifft MambaVision vergleichbare Backbone-Architekturen mit ähnlicher Größe und zeigt eine günstigere Gesamtleistung. Code: https://github.com/NVlabs/MambaVision.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp