
摘要
我们提出了一种因果推断框架,以提升弱监督语义分割(Weakly-Supervised Semantic Segmentation, WSSS)的性能。具体而言,我们的目标是仅利用图像级标签生成更优的像素级伪掩码——这是WSSS中最关键的步骤。我们发现,伪掩码边界模糊的根本原因在于混杂因素(confounding context)的影响:例如,“马”与“人”这两个类别在图像级分类中被正确识别,可能不仅源于对单个实例的感知,还受到二者共现上下文的影响,导致模型可视化方法(如类激活图CAM)难以准确区分不同对象之间的边界。受此启发,我们构建了一个结构化因果模型,用于分析图像、上下文与类别标签之间的因果关系。基于该模型,我们提出了一种新方法——上下文调节(Context Adjustment, CONTA),旨在消除图像级分类中的混杂偏差,从而为后续的分割模型提供更高质量的伪掩码作为伪真值(pseudo-ground-truth)。在PASCAL VOC 2012和MS-COCO数据集上的实验表明,CONTA显著提升了多种主流WSSS方法的性能,使其达到新的最先进水平(state-of-the-art)。