
摘要
在仅部分标签已知的情况下训练多标签图像识别模型是一项极具挑战性和实用性的任务。为了解决这一问题,当前算法主要依赖于预训练的分类或相似性模型来生成未知标签的伪标签。然而,这些算法需要大量的多标签注释来训练模型,导致在已知标签比例较低时性能较差。在本研究中,我们提出了一种跨不同图像融合类别特定表示的方法,以传递已知标签的信息来补充未知标签,从而摆脱了对预训练模型的依赖,不再需要大量注释。为此,我们设计了一个统一的语义感知表示融合(SARB)框架,该框架利用实例级和原型级语义表示通过两个互补模块来补充未知标签:1)实例级表示融合(ILRB)模块将一个图像中的已知标签表示与另一个图像中的未知标签表示进行融合,以补充这些未知标签;2)原型级表示融合(PLRB)模块学习每个类别的更稳定表示原型,并将未知标签的表示与相应标签的原型进行融合以补充这些标签。在MS-COCO、Visual Genome和Pascal VOC 2007数据集上的广泛实验表明,所提出的SARB框架在所有已知标签比例设置下均优于当前领先的竞争对手,当已知标签比例为10%时,在这三个数据集上分别提高了4.6%、4.0%和2.2%的mAP指标。代码可在 https://github.com/HCPLab-SYSU/HCP-MLR-PL 获取。