17 天前

SegViT:基于普通视觉Transformer的语义分割

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu
SegViT:基于普通视觉Transformer的语义分割
摘要

我们探讨了普通视觉Transformer(Vision Transformers, ViTs)在语义分割任务中的潜力,并提出了SegVit模型。以往基于ViT的分割网络通常从ViT的输出中学习像素级表征,而本文则另辟蹊径,充分利用Transformer的核心组件——注意力机制,直接生成用于语义分割的分割掩码。具体而言,我们提出了注意力到掩码(Attention-to-Mask, ATM)模块,该模块通过将一组可学习的类别令牌(class tokens)与空间特征图之间的相似性映射,转化为最终的分割掩码。实验结果表明,采用ATM模块的SegVit在ADE20K数据集上优于使用普通ViT主干网络的基线模型,并在COCO-Stuff-10K和PASCAL-Context数据集上取得了新的最先进(state-of-the-art)性能。此外,为降低ViT主干网络的计算开销,我们进一步提出了基于查询的下采样(Query-based Down-sampling, QD)与基于查询的上采样(Query-based Up-sampling, QU)策略,构建了“精简结构”(Shrunk structure)。在该结构下,模型可实现高达40%的计算量节省,同时保持优异的分割性能。