
摘要
在弱监督场景下,目标检测器需要仅使用图像级别的注释进行训练。由于缺乏边界框级别的真值数据,目前提出的大多数解决方案都是基于一种迭代的多实例学习框架,该框架利用当前分类器选择每幅图像中置信度最高的边界框,并将其作为下一训练迭代中的伪真值数据。然而,未成熟分类器的错误可能导致整个过程偏离轨道,通常会在训练数据集中引入许多误报。为了解决这一问题,本文提出了一种基于自适应学习范式的训练协议。其主要思想是在每次迭代中选择最可靠的图像和边界框子集,并用它们来进行训练。尽管在过去几年中类似策略已被用于支持向量机(SVM)和其他分类器,但我们是首次展示自适应方法可以与基于深度网络的分类器结合使用,并应用于端到端的训练流程中。我们提出的方法建立在全监督的Fast-RCNN架构之上,可以应用于类似的架构,这些架构将输入图像表示为一组边界框。我们在Pascal VOC 2007、Pascal VOC 2010和ILSVRC 2013数据集上展示了最先进的结果。特别是在ILSVRC 2013数据集上,我们基于低容量AlexNet网络的结果甚至超过了那些基于高容量网络的弱监督方法。