
摘要
半监督语义分割(SSS)旨在从廉价的未标记图像中学习丰富的视觉知识,以增强语义分割能力。在最近的研究中,UniMatch通过加强弱到强一致性正则化的方法显著改进了其前代模型。后续的工作通常遵循类似的流程并提出了各种精细的设计。尽管取得了进展,但奇怪的是,在当前众多强大视觉模型蓬勃发展的时代,几乎所有的SSS研究仍然坚持使用1)过时的ResNet编码器进行小规模ImageNet-1K预训练,以及2)在简单的Pascal和Cityscapes数据集上进行评估。在这项工作中,我们认为有必要将SSS的基线从基于ResNet的编码器切换到更强大的基于ViT的编码器(例如DINOv2),这些编码器是在大规模数据上预训练的。即使参数量减少了一半,对编码器进行简单的更新也能带来比精心设计方法更为显著的改进。在此竞争性基线的基础上,我们提出了升级和简化的UniMatch V2,继承了V1的核心弱到强一致性思想,但需要更低的训练成本并提供持续更好的结果。此外,鉴于在Pascal和Cityscapes数据集上的性能逐渐饱和,我们呼吁应关注更具挑战性的基准测试,如具有复杂分类体系的ADE20K和COCO数据集。所有报告值的代码、模型和日志均可在https://github.com/LiheYoung/UniMatch-V2 获取。