17 天前

从序列到序列的视角重新思考基于Transformer的语义分割

Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang

查看论文详情

摘要

近年来，主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络（FCN）。其中，编码器逐步降低特征图的空间分辨率，同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要，近期研究主要聚焦于通过空洞卷积（dilated/atrous convolutions）或引入注意力模块来扩大感受野。然而，基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角：将语义分割建模为序列到序列的预测任务。具体而言，我们采用纯Transformer架构（即不包含卷积操作，也不进行分辨率下采样），将图像划分为多个图像块（patches），并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息，该编码器可与一个简洁的解码器相结合，构建出一种强大的分割模型，命名为SEgmentation TRansformer（SETR）。大量实验表明，SETR在ADE20K数据集上取得了50.28%的mIoU，刷新了该数据集的最新性能纪录；在Pascal Context数据集上达到55.83%的mIoU，同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是，我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜，位居第一。