8 个月前

摘要

识别图像的多个标签是一项实际且具有挑战性的任务，近年来通过搜索语义感知区域和建模标签依赖关系取得了显著进展。然而，当前的方法由于缺乏部件级监督或语义指导，无法准确地定位语义区域。此外，它们无法充分探索语义区域之间的相互作用，并未显式地建模标签共现。为了解决这些问题，我们提出了一种语义特定图表示学习（SSGRL）框架，该框架包含两个关键模块：1）一个语义解耦模块，该模块结合类别语义来引导学习语义特定的表示；2）一个语义交互模块，该模块通过基于统计标签共现构建的图将这些表示相关联，并通过图传播机制探索它们之间的相互作用。在公共基准数据集上的大量实验表明，我们的SSGRL框架在性能上大幅超越了当前最先进的方法，例如在PASCAL VOC 2007和2012、Microsoft-COCO以及Visual Genome基准数据集上分别提高了2.5%、2.6%、6.7%和3.1%的mAP（平均精度均值）。我们的代码和模型可在https://github.com/HCPLab-SYSU/SSGRL 获取。

源 PDF 查看代码