
摘要
弱监督目标定位仍然是一个具有挑战性的问题,因为在训练过程中只有图像标签而没有边界框。目标提议是定位中的一个有效组件,但通常计算成本较高且无法与其他模块进行联合优化。在本文中,据我们所知,首次以端到端学习的方式将弱监督目标提议集成到卷积神经网络(CNNs)中。我们设计了一个网络组件——Soft Proposal(软提议),可以插入任何标准的卷积架构中,引入几乎无成本的目标提议,其速度比现有方法快几个数量级。在加入了Soft Proposal的CNNs中,称为Soft Proposal Networks(SPNs),基于深度特征图生成的目标提议会逐步演化并投影回原图,然后仅通过图像级别的监督与网络参数进一步联合优化。通过统一的学习过程,SPNs能够学习到更好的以目标为中心的滤波器,发现更具区分性的视觉证据,并抑制背景干扰,显著提升了弱监督目标定位和分类的性能。我们在包括PASCAL VOC、MS COCO和ImageNet在内的多个流行基准上报告了最佳结果。