6 个月前

摘要

自监督学习的进展推动了强大通用图像表征学习方法的发展。然而，迄今为止，该领域主要集中在图像级别的学习上。相比之下，诸如无监督图像分割等任务尚未充分受益于这一趋势，因为这类任务需要空间上多样化的表征。然而，在无监督背景下学习密集表征极具挑战性，因为尚不清楚如何引导模型学习对应于多种潜在物体类别的表征。本文提出，对物体部件（object parts）进行自监督学习是解决该问题的有效途径。物体部件具有良好的泛化能力：它们在先验上独立于具体物体的定义，但可在后验阶段被组合形成完整的物体。为此，我们利用近期提出的视觉Transformer（Vision Transformer）对物体具有注意力机制的能力，并结合一种空间密集型聚类任务，对空间令牌（spatial tokens）进行微调。实验结果表明，该方法在三个语义分割基准上均显著超越现有最先进水平，性能提升达3%至17%，充分证明了所学习表征在不同物体定义下的高度适应性。最后，我们将该方法拓展至完全无监督的图像分割任务——即在测试阶段完全不依赖任何标签信息——并证明：基于社区检测（community detection）的简单自动合并机制，能够有效整合所发现的物体部件，从而带来显著的性能提升。

源 PDF