
摘要
多标签图像识别是一项基础而实用的任务,因为现实世界中的图像本身就具有多个语义标签。然而,由于输入图像和输出标签空间的复杂性,收集大规模的多标签注释非常困难。为了降低注释成本,我们提出了一种结构化语义迁移(SST)框架,该框架能够在部分标签的情况下训练多标签识别模型,即每张图像中仅有一些标签是已知的,而其他标签是缺失的(也称为未知标签)。该框架由两个互补的迁移模块组成,这两个模块分别探索图像内部和跨图像之间的语义相关性,以将已知标签的知识迁移到生成未知标签的伪标签。具体而言,一个图像内语义迁移模块学习特定于图像的标签共现矩阵,并根据该矩阵将已知标签映射到补充未知标签。同时,一个跨图像迁移模块学习特定类别的特征相似性,并通过高相似性帮助补充未知标签。最终,已知和生成的标签共同用于训练多标签识别模型。在Microsoft COCO、Visual Genome 和 Pascal VOC 数据集上的大量实验表明,所提出的 SST 框架在性能上优于当前最先进的算法。代码可在 https://github.com/HCPLab-SYSU/HCP-MLR-PL 获取。