8 个月前

摘要

近日，随着对视频理解需求的急剧增加，视频片段检索和高光检测（MR/HD）受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下，定位视频中的特定时刻并估计每个片段与查询的相关性水平，即显著性分数。尽管最近基于 Transformer 的模型取得了一些进展，但我们发现这些方法并未充分利用给定查询的信息。例如，在预测时刻及其显著性时，有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题，我们引入了Query-Dependent DETR（QD-DETR），这是一种专门为MR/HD设计的检测 Transformer 。鉴于我们在 Transformer 架构中观察到给定查询的作用微乎其微，我们的编码模块从交叉注意力层开始，明确地将文本查询的上下文注入到视频表示中。接下来，为了增强模型利用查询信息的能力，我们对视频-查询对进行操作以生成无关对。这些负样本（无关）的视频-查询对被训练以产生较低的显著性分数，从而促使模型更精确地估计查询-视频对之间的相关性。最后，我们提出了一种输入自适应显著性预测器，该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明，在MR/HD任务中构建依赖于查询的表示的重要性。具体而言，QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。

源 PDF