16 天前
SegFormer:基于Transformer的语义分割简单高效设计
Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo

摘要
我们提出SegFormer,一种简单、高效且强大的语义分割框架,该框架将Transformer与轻量级多层感知机(MLP)解码器相结合。SegFormer具有两个显著优势:1)SegFormer采用一种新型分层结构的Transformer编码器,能够输出多尺度特征表示。该设计无需位置编码(positional encoding),从而避免了在测试分辨率与训练分辨率不一致时,因位置编码插值导致的性能下降问题;2)SegFormer摒弃了复杂的解码器结构。所提出的MLP解码器能够融合来自不同层级的特征信息,同时整合局部注意力与全局注意力机制,从而生成具有强大表达能力的特征表示。我们证明,这种简洁而轻量的设计是实现Transformer在语义分割任务中高效运行的关键。我们进一步将该方法扩展为一系列模型,从SegFormer-B0到SegFormer-B5,其性能与效率均显著优于以往方法。例如,SegFormer-B4在ADE20K数据集上达到50.3%的mIoU(平均交并比),参数量仅为64M,相比此前最优方法体积缩小5倍,且性能提升2.2个百分点。我们性能最优的模型SegFormer-B5在Cityscapes验证集上取得了84.0%的mIoU,并在Cityscapes-C数据集上展现出优异的零样本鲁棒性。代码将发布于:github.com/NVlabs/SegFormer。