17 天前
从序列到序列的视角重新思考基于Transformer的语义分割
Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang

摘要
近年来,主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络(FCN)。其中,编码器逐步降低特征图的空间分辨率,同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要,近期研究主要聚焦于通过空洞卷积(dilated/atrous convolutions)或引入注意力模块来扩大感受野。然而,基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角:将语义分割建模为序列到序列的预测任务。具体而言,我们采用纯Transformer架构(即不包含卷积操作,也不进行分辨率下采样),将图像划分为多个图像块(patches),并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息,该编码器可与一个简洁的解码器相结合,构建出一种强大的分割模型,命名为SEgmentation TRansformer(SETR)。大量实验表明,SETR在ADE20K数据集上取得了50.28%的mIoU,刷新了该数据集的最新性能纪录;在Pascal Context数据集上达到55.83%的mIoU,同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是,我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜,位居第一。