2 个月前

面向查询的视频表示用于时刻检索和高光检测

WonJun Moon; Sangeek Hyun; SangUk Park; Dongchan Park; Jae-Pil Heo
面向查询的视频表示用于时刻检索和高光检测
摘要

近日,随着对视频理解需求的急剧增加,视频片段检索和高光检测(MR/HD)受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下,定位视频中的特定时刻并估计每个片段与查询的相关性水平,即显著性分数。尽管最近基于变压器的模型取得了一些进展,但我们发现这些方法并未充分利用给定查询的信息。例如,在预测时刻及其显著性时,有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题,我们引入了Query-Dependent DETR(QD-DETR),这是一种专门为MR/HD设计的检测变压器。鉴于我们在变压器架构中观察到给定查询的作用微乎其微,我们的编码模块从交叉注意力层开始,明确地将文本查询的上下文注入到视频表示中。接下来,为了增强模型利用查询信息的能力,我们对视频-查询对进行操作以生成无关对。这些负样本(无关)的视频-查询对被训练以产生较低的显著性分数,从而促使模型更精确地估计查询-视频对之间的相关性。最后,我们提出了一种输入自适应显著性预测器,该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明,在MR/HD任务中构建依赖于查询的表示的重要性。具体而言,QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。

面向查询的视频表示用于时刻检索和高光检测 | 最新论文 | HyperAI超神经