
摘要
图像分割在单个图像块(image patch)层面通常具有模糊性,需要借助上下文信息才能达成标签的一致性。本文提出了一种用于语义分割的Transformer模型——Segmenter。与基于卷积的方法不同,我们的方法能够在网络的第一层乃至整个网络中建模全局上下文信息。该模型基于近期提出的视觉Transformer(Vision Transformer, ViT),并将其扩展至语义分割任务。为此,我们利用图像块对应的输出嵌入(output embeddings),并通过逐点线性解码器或掩码Transformer解码器从中推导出类别标签。我们采用在图像分类任务上预训练的模型,并证明其可在中等规模的语义分割数据集上进行有效微调。仅使用线性解码器即可获得优异性能,而引入能够生成类别掩码的掩码Transformer解码器可进一步提升模型表现。我们开展了详尽的消融实验,验证了不同参数的影响,结果表明:大模型与小图像块尺寸均能带来更优的性能。Segmenter在语义分割任务上取得了卓越成果,在ADE20K和Pascal Context两个数据集上均超越了当前最优方法,在Cityscapes数据集上也具备较强的竞争力。