
摘要
尽管视觉Transformer(Vision Transformer, ViT)在计算机视觉领域取得了显著进展,但在密集预测任务中表现不佳,主要原因是其内部patch间缺乏有效的信息交互,且特征尺度多样性有限。现有大多数研究致力于设计专用的视觉Transformer架构以解决上述问题,但这类方法通常需要引入额外的预训练成本。为此,本文提出一种简洁、无需预训练且具备特征增强能力的ViT骨干网络——ViT-CoMer,该模型融合了卷积多尺度特征交互机制,能够实现CNN与Transformer之间的双向信息交互。相较于当前最先进方法,ViT-CoMer具有以下优势:(1)将空间金字塔多感受野卷积特征嵌入ViT架构中,有效缓解了ViT在局部信息交互能力不足以及单一特征表示方面的缺陷;(2)提出一种简单而高效的CNN-Transformer双向融合交互模块,可在层级特征间实现多尺度融合,显著提升模型对密集预测任务的适应能力;(3)在多种密集预测任务、不同网络框架以及多个先进预训练策略下对ViT-CoMer进行了全面评估。值得注意的是,ViT-CoMer-L在不使用额外训练数据的情况下,于COCO val2017上达到64.3%的AP,在ADE20K val上实现62.1%的mIoU,性能与当前最先进方法相当。我们期望ViT-CoMer能够成为密集预测任务中一个新颖且高效的骨干网络,推动后续相关研究的发展。代码将开源,地址为:https://github.com/Traffic-X/ViT-CoMer。