
摘要
视频片段检索(Video Moment Retrieval, MR)旨在根据给定的自然语言查询在视频中定位特定片段。鉴于像 YouTube 这样的平台在信息检索中的广泛应用,对 MR 技术的需求显著增长。最近基于 DETR 的模型在性能上取得了显著进展,但在准确定位短片段方面仍面临挑战。通过数据分析,我们发现短片段的特征多样性有限,这促使我们开发了 MomentMix 方法。MomentMix 采用了两种增强策略:前景混合(ForegroundMix)和背景混合(BackgroundMix),分别增强了前景和背景的特征表示。此外,我们的预测偏差分析显示,短片段在准确预测其中心位置时尤为困难。为了解决这一问题,我们提出了一种长度感知解码器(Length-Aware Decoder),该解码器通过一种新颖的二分匹配过程来调节长度。我们的大量研究表明,这种长度感知方法在定位短片段方面特别有效,从而提高了整体性能。我们的方法在基准数据集上超越了现有的基于 DETR 的最先进方法,在 QVHighlights 数据集上实现了最高的 R1 和 mAP,在 TACoS 和 Charades-STA 数据集上实现了最高的 [email protected](例如,在 QVHighlights 上 [email protected] 提高了 2.46%,mAP 平均值提高了 2.57%)。代码已发布在 https://github.com/sjpark5800/LA-DETR。