
摘要
弱监督时序动作定位的目标是在训练过程中仅使用视频级别的类别标签来定位和识别未剪辑视频中的动作。由于缺乏实例级别的注释,大多数现有方法遵循基于片段的多实例学习(S-MIL)框架,其中片段的预测由视频的标签进行监督。然而,训练阶段获取片段级别分数的目标与测试阶段获取提案级别分数的目标不一致,导致结果次优。为了解决这一问题,我们提出了一种新颖的基于提案的多实例学习(P-MIL)框架,在训练和测试阶段直接对候选提案进行分类,该框架包括三个关键设计:1) 一个周边对比特征提取模块,通过考虑周边对比信息来抑制判别力较弱的短提案;2) 一个提案完整性评估模块,在完整性伪标签的指导下抑制低质量提案;3) 一个实例级别排名一致性损失,通过利用RGB和FLOW模态的互补性实现鲁棒检测。在两个具有挑战性的基准数据集THUMOS14和ActivityNet上的大量实验结果证明了我们方法的优越性能。