11 天前

多标签分类中的标签图叠加

Ya Wang, Dongliang He, Fu Li, Xiang Long, Zhichao Zhou, Jinwen Ma, Shilei Wen
多标签分类中的标签图叠加
摘要

图像或视频通常包含多个对象或动作。得益于深度学习技术的快速发展,多标签识别已取得优异的性能表现。近年来,图卷积网络(Graph Convolutional Network, GCN)被引入以进一步提升多标签识别的性能。然而,标签相关性建模的最佳方式仍不明确,且如何在特征学习过程中融入标签体系的先验知识以提升表示能力,仍是亟待解决的问题。本文提出一种标签图叠加框架(Label Graph Superimposing Framework),旨在从两个方面改进传统的GCN+CNN多标签识别框架。首先,我们通过将基于统计共现信息构建的标签图叠加到由标签先验知识生成的图结构之上,实现对标签间相关性的建模;随后,在最终叠加的图结构上进行多层图卷积操作,以抽象出更具表达力的标签嵌入(label embedding)。其次,我们提出利用整个标签系统的嵌入表示来增强特征学习能力。具体而言,在浅层、中层和深层分别引入GCN与CNN之间的横向连接,将标签体系的全局信息注入主干CNN,从而在特征学习过程中实现对标签的感知。在MS-COCO和Charades两个公开数据集上的大量实验表明,所提出的框架显著提升了多标签识别性能,并达到了新的最先进(state-of-the-art)水平。

多标签分类中的标签图叠加 | 最新论文 | HyperAI超神经