
摘要
时间定位是指从视频中识别出与文本描述相对应的具体时刻或亮点。现有的时间定位方法在编码过程中通常对所有视频片段一视同仁,不论其与文本查询的语义相关性如何。因此,我们提出了关联引导检测变换器(Correlation-Guided DEtection TRansformer, CG-DETR),旨在通过跨模态注意力机制为与查询相关的视频片段提供线索。首先,我们设计了一种带有虚拟令牌的自适应跨注意力机制。由文本查询条件化的虚拟令牌占据了部分注意力权重,防止无关的视频片段被文本查询表示。然而,并非所有单词都能同等继承文本查询与视频片段的相关性。因此,我们进一步通过推断视频片段与单词之间的细粒度相关性来引导跨注意力图。我们通过学习高层次概念(即时刻和句子层面)的联合嵌入空间并推断片段-单词相关性来实现这一点。最后,我们利用特定时刻的特征,并将其与每个视频的上下文相结合,形成一个时刻自适应显著性检测器。通过衡量每个视频片段中的文本参与程度,该检测器能够精确评估每个片段的亮点程度。CG-DETR 在多个时间定位基准测试中取得了最先进的结果。代码已发布在 https://github.com/wjun0830/CGDETR。