17 天前
基于元数据的网络监督图像分类:通过视觉-语义图实现自动噪声标签修正
Jingkang Yang, Weirong Chen, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang

摘要
近年来,弱监督学习(Webly supervised learning)因其在无需昂贵人工标注的情况下实现数据高效扩展而受到广泛关注。然而,采用搜索引擎查询词或标签(hashtags)作为图像的网络标签进行训练时,会引入大量噪声,显著降低深度神经网络(DNNs)的性能。尤其由于查询词存在语义模糊性,一个查询所检索到的图像中往往包含大量属于其他概念的样本。例如,在Flickr上搜索“tiger cat”时,返回的图像以老虎为主,而非猫类图像。这些现实世界中的噪声样本在视觉空间中通常呈现出清晰的视觉语义聚类特征,从而误导DNN学习到错误的语义标签。传统上,纠正此类真实场景下的噪声标签往往依赖昂贵的人工标注。幸运的是,我们发现元数据(metadata)能够提供额外的知识,以无需人工干预的方式挖掘出干净的网络标签,从而在海量标签噪声的网络数据中实现自动化的语义引导。本文提出一种基于视觉-语义图(visual-semantic graph)的自动标签校正方法——VSGraph-LC。该方法首先通过分析元数据与正确标签概念之间的语义相似性,选择可靠的锚点样本;随后,利用图神经网络(GNN)在视觉图上从锚点出发传播正确的标签信息,实现标签的自动修正。在真实世界弱监督学习数据集Webvision-1000和NUS-81-Web上的实验表明,VSGraph-LC在标签校正方面具有显著的有效性与鲁棒性。此外,该方法在开放集验证(open-set validation set)场景下展现出明显优势,进一步验证了其在复杂现实环境中的适用性与潜力。