2 个月前
活动驱动的弱监督物体检测
Zhenheng Yang; Dhruv Mahajan; Deepti Ghadiyaram; Ram Nevatia; Vignesh Ramanathan

摘要
弱监督目标检测旨在减少训练检测模型所需的人工标注量。传统的检测模型通常仅从带有对象类别标签而无对象边界框的图像或视频中学习。在我们的研究中,我们尝试不仅利用对象类别标签,还利用与数据相关联的动作标签。我们展示了图像或视频中描绘的动作可以为关联对象的位置提供强有力的线索。例如,“踢球”中的“球”更靠近“人的腿”。我们学习了一个依赖于动作的对象空间先验,并将其纳入到联合目标检测和动作分类模型的训练过程中。我们在视频数据集和图像数据集上进行了实验,以评估我们提出的弱监督目标检测模型的性能。结果表明,我们的方法在Charades视频数据集上的平均精度均值(mAP)比当前最先进的(SOTA)方法提高了超过6%。