
摘要
多标签图像分类(Multi-label Image Classification, MLIC)是一项基础且具有实际应用价值的任务,其目标是为一张图像分配多个可能的标签。近年来,众多基于深度卷积神经网络(CNN)的方法被提出,这些方法通过建模标签之间的相关性,以挖掘标签的语义信息并学习图像的语义表示。本文在这一研究方向上进一步推进,同时提升了标签相关性建模能力与语义表示学习效果。一方面,除了关注单个标签的局部语义外,本文提出进一步挖掘多个标签之间共享的全局语义信息;另一方面,现有方法主要在CNN的最后一个卷积层学习语义表示,然而已有研究表明,CNN不同层次的特征图捕捉了不同层级或尺度的视觉特征,且具有不同的判别能力。因此,本文提出在多个卷积层上联合学习语义表示。为此,本文设计了一种多层语义表示网络(Multi-layered Semantic Representation Network, MSRN)。该网络通过建模标签间的相关性,同时挖掘标签的局部与全局语义,并利用所获得的标签语义信息,通过注意力机制引导多层特征的语义表示学习。在VOC 2007、COCO、NUS-WIDE和Apparel四个主流基准数据集上的大量实验表明,所提出的MSRN在性能上优于当前最先进的模型,展现出较强的竞争力。