
摘要
视觉Transformer(Vision Transformers, ViTs)将图像编码为图像块序列,为语义分割任务带来了新的范式。本文提出了一种高效且创新的表示分离框架,该框架在局部图像块级别与全局区域级别之间实现解耦,以应对ViTs在语义分割任务中普遍存在的过平滑问题。与当前主流的上下文建模方法以及大多数依赖注意力机制优势的现有方法不同,本工作聚焦于通过分离局部与全局表示来提升性能。我们首先设计了一种解耦的双路径网络结构:其中一条路径保留ViTs原有的全局建模能力,另一条路径则专门增强并传递局部图像块间的差异性信息,以补充全局表示的不足。在此基础上,我们进一步提出一种空间自适应分离模块,用于获取更具区分性的深层特征表示;同时引入一种新型的判别性交叉注意力机制,结合辅助监督信号,生成更具判别力的区域级表示。所提方法取得了令人瞩目的成果:1)在引入大规模纯ViTs(plain ViTs)的基础上,我们的方法在五个广泛使用的基准数据集上均达到新的最先进(SOTA)性能;2)基于掩码预训练的纯ViTs,我们在Pascal Context数据集上实现了68.9%的mIoU,创下新纪录;3)将金字塔结构的ViTs与解耦双路径网络相结合后,其在Cityscapes数据集上的表现甚至超越了精心设计的高分辨率ViTs;4)本框架所提升的特征表示在面对自然图像退化(如噪声、模糊等)时,展现出优异的迁移能力。相关代码将公开发布,以促进学术交流与后续研究。