
摘要
不断有多种自监督训练方案被提出,这使得开发一种通用的基础模型又向前迈进了一步。在这个过程中,无监督下游任务被认为是验证通过自监督训练方案学习到的视觉特征质量的一种方法。然而,无监督密集语义分割尚未作为下游任务进行探索,它可以利用并评估在视觉变压器的自监督训练中引入的补丁级特征表示中的语义信息。因此,本文提出了一种新的数据驱动方法(DatUS^2)用于无监督语义分割作为下游任务。DatUS^2 无需使用任何视觉先验或同步数据,即可为未标记图像数据集生成语义一致且密集的伪注释分割掩模。我们通过将这些伪注释分割掩模与真实标签掩模进行比较,来评估最近的自监督训练方案在补丁级学习共享语义属性以及在段级学习区分性语义属性的能力。最后,我们使用所提出的下游任务 DatUS^2 对现有的最先进自监督训练方案进行了评估。此外,最佳版本的 DatUS^2 在 SUIM 数据集上以 15.02% 的平均交并比(MiOU)和 21.47% 的像素精度超越了现有最先进方法,在大规模且复杂的 COCO 数据集上也达到了具有竞争力的精度水平。