
摘要
多标签图像分类是计算机视觉中的一个基本但具有挑战性的任务。近年来,通过利用标签之间的语义关系,已经取得了显著进展。然而,传统方法无法建模多标签图像中标签之间的潜在空间关系,因为通常不会提供标签的空间注释。在本文中,我们提出了一种统一的深度神经网络,该网络仅使用图像级别的监督即可同时利用标签之间的语义和空间关系。对于给定的多标签图像,我们提出的空间正则化网络(Spatial Regularization Network, SRN)为所有标签生成注意力图,并通过可学习的卷积捕捉它们之间的潜在关系。通过将正则化的分类结果与ResNet-101网络的原始结果进行聚合,可以持续提升分类性能。整个深度神经网络仅使用图像级别的注释进行端到端训练,因此不需要额外的图像注释工作。在3个不同类型的公共数据集上进行的广泛评估表明,我们的方法显著优于现有技术,并且具有强大的泛化能力。对所学SRN模型的分析表明,它能够有效捕捉标签之间的语义和空间关系,从而提高分类性能。