
摘要
我们提出一种新型的混合Mamba-Transformer主干网络,命名为MambaVision,专为视觉任务量身定制。本工作的核心贡献在于对Mamba架构进行了重新设计,以提升其对视觉特征高效建模的能力。此外,我们系统地开展了消融实验,深入探究了将视觉Transformer(ViT)与Mamba相结合的可行性。实验结果表明,在Mamba架构的最后几层引入多个自注意力(self-attention)模块,可显著增强模型捕捉长距离空间依赖关系的能力。基于上述发现,我们构建了一族具有分层结构的MambaVision模型,以满足不同应用场景的设计需求。在ImageNet-1K数据集上的图像分类任务中,MambaVision模型变体在Top-1准确率与图像吞吐量方面均达到了新的最先进(SOTA)水平。在MS COCO和ADE20K数据集上的下游任务(包括目标检测、实例分割与语义分割)中,MambaVision的表现优于同等规模的其他主干网络,并展现出更优的性能。代码已开源:https://github.com/NVlabs/MambaVision。