17 天前

SegViT：基于普通视觉Transformer的语义分割

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu

摘要

我们探讨了普通视觉Transformer（Vision Transformers, ViTs）在语义分割任务中的潜力，并提出了SegVit模型。以往基于ViT的分割网络通常从ViT的输出中学习像素级表征，而本文则另辟蹊径，充分利用Transformer的核心组件——注意力机制，直接生成用于语义分割的分割掩码。具体而言，我们提出了注意力到掩码（Attention-to-Mask, ATM）模块，该模块通过将一组可学习的类别令牌（class tokens）与空间特征图之间的相似性映射，转化为最终的分割掩码。实验结果表明，采用ATM模块的SegVit在ADE20K数据集上优于使用普通ViT主干网络的基线模型，并在COCO-Stuff-10K和PASCAL-Context数据集上取得了新的最先进（state-of-the-art）性能。此外，为降低ViT主干网络的计算开销，我们进一步提出了基于查询的下采样（Query-based Down-sampling, QD）与基于查询的上采样（Query-based Up-sampling, QU）策略，构建了“精简结构”（Shrunk structure）。在该结构下，模型可实现高达40%的计算量节省，同时保持优异的分割性能。