
摘要
识别图像的多个标签是一项实际且具有挑战性的任务,近年来通过搜索语义感知区域和建模标签依赖关系取得了显著进展。然而,当前的方法由于缺乏部件级监督或语义指导,无法准确地定位语义区域。此外,它们无法充分探索语义区域之间的相互作用,并未显式地建模标签共现。为了解决这些问题,我们提出了一种语义特定图表示学习(SSGRL)框架,该框架包含两个关键模块:1)一个语义解耦模块,该模块结合类别语义来引导学习语义特定的表示;2)一个语义交互模块,该模块通过基于统计标签共现构建的图将这些表示相关联,并通过图传播机制探索它们之间的相互作用。在公共基准数据集上的大量实验表明,我们的SSGRL框架在性能上大幅超越了当前最先进的方法,例如在PASCAL VOC 2007和2012、Microsoft-COCO以及Visual Genome基准数据集上分别提高了2.5%、2.6%、6.7%和3.1%的mAP(平均精度均值)。我们的代码和模型可在https://github.com/HCPLab-SYSU/SSGRL 获取。