
摘要
时间句子定位(Temporal Sentence Grounding)旨在从未剪辑的视频中检测出与自然语言查询最相关的时间片段。由于标注时间边界既费时又具有主观性,弱监督方法近年来受到越来越多关注。然而,现有大多数弱监督方法通过滑动窗口生成候选片段,这些候选片段与内容无关,质量较低。此外,这些方法通常从其他视频中随机采集正负视觉-语言样本对进行模型训练,忽略了同一视频内部高度相似的混淆片段,导致模型难以区分语义相近的场景。为此,本文提出对比候选生成方法(Contrastive Proposal Learning, CPL),以克服上述局限。具体而言,我们采用多个可学习的高斯函数,在同一视频内部生成正负候选片段,从而有效表征长视频中的多种事件。进一步地,我们设计了一种可控的“由易到难”负样本挖掘策略,从同一视频中提取负样本,有助于缓解模型优化难度,并使CPL能够准确区分高度混淆的视觉场景。实验结果表明,本文方法在Charades-STA和ActivityNet Captions两个基准数据集上均达到当前最优性能。代码与模型已开源,地址为:https://github.com/minghangz/cpl。