
초록
우리는 비전 응용 분야에 특화된 새로운 하이브리드 Mamba-Transformer 백본, 즉 MambaVision을 제안한다. 본 연구의 핵심 기여는 시각적 특징을 효율적으로 모델링할 수 있도록 Mamba의 수식 구조를 재설계한 점이다. 또한, 비전 트랜스포머(ViT)와 Mamba를 통합하는 가능성에 대해 체계적인 아블레이션 연구를 수행하였다. 실험 결과, Mamba 아키텍처의 최종 계층에 여러 개의 자체 주의(self-attention) 블록을 추가함으로써 장거리 공간적 종속성( long-range spatial dependencies)을 보다 효과적으로 포착할 수 있는 모델링 능력이 크게 향상됨을 확인하였다. 이러한 발견을 바탕으로, 다양한 설계 기준을 충족시키기 위해 계층적 아키텍처를 가진 MambaVision 모델군을 도입하였다. ImageNet-1K 데이터셋에서의 이미지 분류 작업에서는 MambaVision 모델 변형들이 상위 1위 정확도(Top-1 accuracy) 및 이미지 처리 속도 측면에서 새로운 최고 성능(SOTA)을 달성하였다. MS COCO 및 ADE20K 데이터셋에서의 객체 탐지, 인스턴스 세그멘테이션, 세그멘테이션과 같은 하류 작업에서도, 비교 가능한 크기의 백본들과 비교하여 MambaVision은 더 우수한 성능을 보였다. 코드: https://github.com/NVlabs/MambaVision.