
摘要
由于自然图像场景内容复杂且标签之间存在混淆依赖关系,有效提取图像语义并为多个对象或属性分配相应标签仍是一项挑战。近年来的研究主要通过图模型建模标签间关系,并利用类别激活图(Class Activation Map, CAM)来理解物体区域。然而,这些方法忽略了特定语义特征在类别内部及类别之间的复杂关系,且CAM容易产生噪声信息。为此,本文提出一种新型的语义感知双对比学习框架(Semantic-aware Dual Contrastive Learning, SADCL),该框架融合了样本间对比学习(Sample-to-Sample Contrastive Learning, SSCL)与原型-样本对比学习(Prototype-to-Sample Contrastive Learning, PSCL)。具体而言,我们采用语义感知表示学习,提取与类别相关的局部判别性特征,并构建类别原型。基于SSCL,同一类别的标签级视觉表征被聚合,而不同类别间的特征则被有效分离。同时,我们设计了一种新颖的PSCL模块,通过拉近正样本与对应类别原型之间的距离,同时推远负样本与原型的距离。最终,通过上述三部分的联合训练,能够精确捕捉与图像内容相关的判别性标签级特征。在五个具有挑战性的大规模公开数据集上的实验结果表明,所提出的方法具有良好的有效性,并显著优于当前最先进的方法。代码及补充材料已发布于 https://github.com/yu-gi-oh-leilei/SADCL。