
摘要
基于图像级别标签的弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)因其标注成本低而受到广泛关注。现有方法通常依赖于类别激活图(Class Activation Mapping, CAM),通过衡量图像像素与分类器权重之间的相关性来定位目标区域。然而,分类器仅关注具有判别性的局部区域,忽略了图像中其他潜在有用的信息,导致定位结果不完整。为解决这一问题,本文提出一种自监督的图像特定原型探索方法(Self-supervised Image-specific Prototype Exploration, SIPE),该方法由图像特定原型探索(Image-specific Prototype Exploration, IPE)模块与通用-特定一致性(General-Specific Consistency, GSC)损失函数构成。具体而言,IPE模块为每张图像定制专属原型,以捕获更完整的语义区域,由此生成图像特定的类别激活图(Image-specific CAM, IS-CAM),该过程通过两个连续步骤实现。此外,GSC损失被设计用于建立通用CAM与本文提出的特定IS-CAM之间的一致性,从而进一步优化特征表示,并赋予原型探索过程自校正能力。在PASCAL VOC 2012和MS COCO 2014语义分割基准上的大量实验表明,所提出的SIPE方法仅使用图像级别标签,即可取得新的最先进性能。代码已开源,地址为:https://github.com/chenqi1126/SIPE。