
摘要
弱监督分割任务要求基于带有部分标注的训练样本(如图像级标签、目标边界框、标记点或草图)为每个像素分配类别标签。该任务具有挑战性:粗粒度标注(如标签、边界框)缺乏精确的像素级定位信息,而稀疏标注(如点、草图)则难以覆盖广泛的图像区域。现有方法通常对这两种弱监督形式采取不同的处理策略:针对粗粒度标注,利用类别激活图(Class Activation Maps)进行定位并迭代优化分割模型;而对于稀疏标注,则采用条件随机场(Conditional Random Fields)将局部标签传播至整张图像。本文将弱监督分割建模为一种半监督度量学习问题,其核心思想是:语义相同的像素应被映射到相同的特征表示,而语义不同的像素则应具有区分性的特征表示。为此,我们提出在特征空间中构建四类对比关系,分别捕捉像素与区域之间的低层图像相似性、语义标注一致性、共现关系以及特征亲和性。这些关系作为先验知识,使得像素级特征能够通过任意类型的局部标注数据,以数据驱动的方式进行学习。特别地,训练图像中的未标注像素不仅参与图像内部的数据驱动聚类,还在图像内与跨图像的判别性特征学习中发挥重要作用。我们提出的方法实现了统一的弱监督分割框架,在Pascal VOC和DensePose数据集上均取得了显著性能提升。相关代码已公开,地址为:https://github.com/twke18/SPML。