
摘要
多标签图像识别相比单标签图像分类是一项既实用又具有挑战性的任务。然而,以往的研究工作可能由于大量的目标建议或复杂的注意力区域生成模块而不够最优。在本文中,我们提出了一种简单但高效的双流框架,用于从全局图像到局部区域识别多类别对象,类似于人类感知物体的方式。为了弥合全局流和局部流之间的差距,我们提出了一种多类注意力区域模块,旨在尽可能减少注意力区域的数量并保持这些区域的最大多样性。我们的方法能够在可承受的计算成本和无参数的区域定位模块下高效且有效地识别多类对象。在三个多标签图像分类基准数据集上,我们仅使用图像语义而不依赖标签的情况下,通过单一模型创造了新的最先进结果。此外,我们在不同的因素(如全局池化策略、输入尺寸和网络架构)下广泛验证了所提方法的有效性。代码已发布在 \url{https://github.com/gaobb/MCAR}。