
摘要
给定一个由图像及其对应类别标签组成的训练数据集,深度卷积神经网络在挖掘用于图像分类的判别部分方面表现出强大的能力。然而,仅使用图像级标签训练的深度卷积神经网络往往只关注最具判别性的部分,而忽略了其他可能提供补充信息的对象部分。本文从不同的角度来解决这一问题。我们以弱监督的方式构建互补部分模型,以恢复被卷积神经网络检测到的主要对象部分所抑制的信息。仅基于图像级标签,我们首先通过使用Mask R-CNN和基于条件随机场(CRF)的分割方法进行弱监督对象检测和实例分割,提取出粗略的对象实例。然后,我们在尽可能保留多样性的原则下,为每个对象实例估计并搜索最佳的部分模型。最后阶段,我们构建了一个双向长短期记忆(LSTM)网络,将这些互补部分的局部信息融合并编码为一个综合特征,用于图像分类。实验结果表明,所提出的方法不仅在我们的基线模型上取得了显著的改进,而且在Stanford Dogs 120、Caltech-UCSD Birds 2011-200和Caltech 256数据集上的性能分别超过了现有最先进算法6.7%、2.8%和5.2%。