17 天前

多尺度高分辨率视觉Transformer用于语义分割

Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan
多尺度高分辨率视觉Transformer用于语义分割
摘要

视觉Transformer(Vision Transformers, ViTs)在计算机视觉任务中相较于基于卷积神经网络(CNN)的模型展现出更优越的性能。然而,现有ViT主要面向图像分类任务,生成的是单尺度、低分辨率的特征表示,这使得其在语义分割等密集预测任务中面临挑战。为此,本文提出HRViT,通过将高分辨率多分支架构与ViT相结合,增强ViT学习语义丰富且空间精确的多尺度表征能力。为在模型性能与效率之间取得平衡,HRViT采用多种分支-模块协同优化策略,包括探索异构分支结构设计、减少线性层中的冗余参数,以及增强注意力模块的表达能力。实验结果表明,这些方法显著提升了HRViT在语义分割任务中性能与效率的权衡表现,其在ADE20K和Cityscapes数据集上的评估结果均达到新高度。HRViT在ADE20K上实现50.20%的mIoU,在Cityscapes上达到83.16%的mIoU,相较当前先进模型MiT与CSWin骨干网络,平均提升1.78% mIoU,同时实现28%的参数量减少和21%的浮点运算量(FLOPs)降低,充分展示了HRViT作为语义分割强健视觉主干网络的巨大潜力。