
摘要
弱监督目标检测网络在精确预测目标位置方面面临挑战,主要原因在于缺乏实例级别的类别标注。现有大多数方法通常采用两阶段学习策略来解决该问题:首先使用多实例学习(Multiple Instance Learning, MIL)检测器进行初步检测,随后通过带有边界框回归的全监督学习检测器进行精调。然而,基于我们的观察,这种两阶段流程可能导致某些目标类别陷入局部最优解。为此,本文提出一种端到端的联合训练方法,将两个阶段统一在同一个网络中进行联合优化。具体而言,我们设计了一个共享同一主干网络的单一模型,该模型同时包含多实例学习分支和边界框回归分支。此外,我们在主干网络中引入一种基于分类损失的引导注意力模块,以有效提取特征中的隐式位置信息。在公开数据集上的实验结果表明,所提方法取得了当前最优的性能表现。