HyperAIHyperAI

Command Palette

Search for a command to run...

SegViT:基于普通视觉Transformer的语义分割

Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin Wei Chunhua Shen Yifan Liu

摘要

我们探讨了普通视觉Transformer(Vision Transformers, ViTs)在语义分割任务中的潜力,并提出了SegVit模型。以往基于ViT的分割网络通常从ViT的输出中学习像素级表征,而本文则另辟蹊径,充分利用Transformer的核心组件——注意力机制,直接生成用于语义分割的分割掩码。具体而言,我们提出了注意力到掩码(Attention-to-Mask, ATM)模块,该模块通过将一组可学习的类别令牌(class tokens)与空间特征图之间的相似性映射,转化为最终的分割掩码。实验结果表明,采用ATM模块的SegVit在ADE20K数据集上优于使用普通ViT主干网络的基线模型,并在COCO-Stuff-10K和PASCAL-Context数据集上取得了新的最先进(state-of-the-art)性能。此外,为降低ViT主干网络的计算开销,我们进一步提出了基于查询的下采样(Query-based Down-sampling, QD)与基于查询的上采样(Query-based Up-sampling, QU)策略,构建了“精简结构”(Shrunk structure)。在该结构下,模型可实现高达40%的计算量节省,同时保持优异的分割性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供