7 天前

通过自然语言查询检测视频中的关键时刻与高光片段

{Mohit Bansal, Tamara Berg, Jie Lei}
通过自然语言查询检测视频中的关键时刻与高光片段
摘要

根据自然语言(NL)用户查询从视频中检测定制化片段与精彩时刻,是一个重要但研究尚不充分的课题。该方向面临的主要挑战之一是缺乏标注数据。为解决这一问题,我们提出了基于查询的视频精彩片段数据集(Query-based Video Highlights,简称 QVHighlights)。该数据集包含超过10,000个YouTube视频,涵盖广泛的主题,从生活类Vlog视频中的日常活动与旅行场景,到新闻视频中的社会与政治事件。每个视频均经过以下三方面的详尽标注:(1)由人工撰写的自由形式自然语言查询;(2)与查询相关的视频片段;(3)针对所有与查询相关的片段,提供五级评分的显著性(saliency)分数。这一全面的标注体系使得我们能够开发并评估能够响应多样化、灵活用户查询的系统,实现相关片段检测与显著精彩时刻识别。此外,我们提出了一种强大的基线模型——Moment-DETR,该模型采用Transformer编码器-解码器架构,将片段检索问题视为直接的集合预测任务。模型以提取的视频特征和查询特征作为输入,端到端地预测片段的时间坐标与显著性评分。尽管该模型未引入任何人工先验知识,但实验结果表明,其性能在与精心设计的架构对比中仍具有竞争力。通过使用自动语音识别(ASR)字幕进行弱监督预训练,Moment-DETR显著优于此前的各类方法。最后,我们对Moment-DETR进行了多项消融实验与可视化分析,进一步验证了模型各组件的有效性。相关数据与代码已公开发布于 GitHub:https://github.com/jayleicn/moment_detr。

通过自然语言查询检测视频中的关键时刻与高光片段 | 最新论文 | HyperAI超神经