6 个月前

摘要

由于自然图像场景内容复杂且标签之间存在混淆依赖关系，有效提取图像语义并为多个对象或属性分配相应标签仍是一项挑战。近年来的研究主要通过图模型建模标签间关系，并利用类别激活图（Class Activation Map, CAM）来理解物体区域。然而，这些方法忽略了特定语义特征在类别内部及类别之间的复杂关系，且CAM容易产生噪声信息。为此，本文提出一种新型的语义感知双对比学习框架（Semantic-aware Dual Contrastive Learning, SADCL），该框架融合了样本间对比学习（Sample-to-Sample Contrastive Learning, SSCL）与原型-样本对比学习（Prototype-to-Sample Contrastive Learning, PSCL）。具体而言，我们采用语义感知表示学习，提取与类别相关的局部判别性特征，并构建类别原型。基于SSCL，同一类别的标签级视觉表征被聚合，而不同类别间的特征则被有效分离。同时，我们设计了一种新颖的PSCL模块，通过拉近正样本与对应类别原型之间的距离，同时推远负样本与原型的距离。最终，通过上述三部分的联合训练，能够精确捕捉与图像内容相关的判别性标签级特征。在五个具有挑战性的大规模公开数据集上的实验结果表明，所提出的方法具有良好的有效性，并显著优于当前最先进的方法。代码及补充材料已发布于 https://github.com/yu-gi-oh-leilei/SADCL。

源 PDF