
摘要
在本研究中,我们重新审视了文献[13]中提出的全局平均池化层,并阐明了它如何在仅使用图像级标签训练的情况下,显式地赋予卷积神经网络显著的定位能力。尽管该技术最初被提出作为正则化训练的一种手段,但我们发现它实际上构建了一种通用的可定位深度表示,可以应用于多种任务。尽管全局平均池化看似简单,我们在ILSVRC 2014数据集上实现了37.1%的前五定位错误率,这一结果非常接近全监督CNN方法所达到的34.2%前五错误率。我们展示了我们的网络能够在多种任务中准确定位判别性的图像区域,即使这些任务并未在训练过程中涉及。