17日前

MambaVision:ハイブリッドMamba-Transformer型ビジョンバックボーン

Ali Hatamizadeh, Jan Kautz
MambaVision:ハイブリッドMamba-Transformer型ビジョンバックボーン
要約

我々は、視覚応用に特化して設計された新しいハイブリッドMamba-Transformerバックボーン、すなわちMambaVisionを提案する。本研究の核心的貢献は、視覚特徴の効率的なモデリング能力を向上させるためにMambaの定式化を再設計したことにある。さらに、視覚変換器(ViT)とMambaの統合可能性について包括的なアブレーションスタディを実施した。その結果、Mambaアーキテクチャの最終層に複数の自己注意(self-attention)ブロックを導入することで、長距離空間依存関係を捉えるモデリング能力が顕著に向上することが明らかになった。これらの知見を基に、さまざまな設計要件に対応できる階層構造を持つMambaVisionモデル群を導入した。ImageNet-1Kデータセットにおける画像分類タスクでは、MambaVisionのモデル変種がトップ-1精度および画像処理スループットの面で、新たな最先端(SOTA)性能を達成した。また、MS COCOおよびADE20Kデータセットにおけるオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおいても、同サイズのバックボーンと比較して優れた性能を示し、より有利な結果を獲得した。コードは以下のURLから入手可能:https://github.com/NVlabs/MambaVision。