
摘要
弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)在仅使用图像级标签的情况下,通过类别激活图(Class Activation Map, CAM)取得了显著进展。然而,原始的CAM难以有效引导模型弥合全监督与弱监督之间的差距。为此,近期研究致力于探索更优的语义表示,以提升CAM在WSSS任务中的适用性,并取得了令人鼓舞的效果。但这些方法通常仅利用单一层次的语义信息,可能限制模型对全局语义结构的充分学习。受“每张图像包含多层次语义”这一先验知识的启发,本文提出层次化语义对比(Hierarchical Semantic Contrast, HSC),以缓解上述问题。HSC从粗粒度到细粒度的多个层级进行语义对比,涵盖区域感兴趣区域(ROI)级、类别(class)级和像素(pixel)级,促使模型更好地理解物体的结构化语义模式。为进一步提升CAM的质量,基于HSC,我们进一步引入跨监督一致性正则化机制,并提出动量原型学习(momentum prototype learning),以有效挖掘不同图像间丰富的语义信息。大量实验表明,本文提出的即插即用学习范式HSC,能够显著提升非显著性引导与显著性引导两类基线模型的CAM质量,并在PASCAL VOC 2012数据集上取得了新的最先进(state-of-the-art)的弱监督语义分割性能。