17 天前

基于纯视觉Transformer的极简高效语义分割

Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan

摘要

在掩码图像建模（Masked Image Modeling, MIM）的推动下，一系列结构简单、非分层的视觉Transformer（Vision Transformer, ViT）模型已基于大规模数据集完成预训练，为语义分割任务带来了新的范式与巨大潜力。然而，当前最先进的系统普遍引入了大量归纳偏置，并采用复杂冗赘的解码器结构。基于原始简单ViT模型所秉持的“简洁性”与“通用性”这一核心设计理念，本文致力于探索高性能的“极简主义”（minimalist）系统架构。我们的主要目标是为基于纯ViT的语义分割任务提供简洁且高效的基准模型。具体而言，我们首先探究了仅利用最后一层特征图实现高性能语义分割的可行性与方法路径。基于此，我们提出PlainSeg模型——该模型在Transformer主干（编码器或解码器）之外，仅包含三个3×3卷积层，结构极为轻量。在这一过程中，我们揭示了两个关键原理：（i）即便采用简单的上采样策略，高分辨率特征对于实现优异性能仍至关重要；（ii）相较于宽型Transformer解码器，轻量型Transformer解码器需要设置更大的学习率才能有效训练。在此基础上，我们进一步提出PlainSeg-Hier，该模型支持利用分层特征，进一步提升表达能力。在四个主流语义分割基准数据集上的大量实验表明，本文所提方法在性能与效率方面均表现出色。同时，这些模型也可作为评估基础模型在语义分割任务中迁移能力的强大工具。相关代码已开源，地址为：\url{https://github.com/ydhongHIT/PlainSeg}。