
摘要
根据自然语言(NL)用户查询从视频中检测定制化片段与精彩时刻,是一个重要但研究尚不充分的课题。该方向面临的主要挑战之一是缺乏标注数据。为解决这一问题,我们提出了基于查询的视频精彩片段数据集(Query-based Video Highlights,简称 QVHIGHLIGHTS)。该数据集包含超过10,000个YouTube视频,涵盖广泛的主题,从生活类Vlog中的日常活动与旅行场景,到新闻视频中的社会与政治事件。每个视频均经过如下三方面标注:(1)由人工撰写的自由形式自然语言查询;(2)与查询相关的时间片段;(3)针对所有与查询相关片段的五分制显著性评分(saliency scores)。这一全面的标注体系使得我们能够开发并评估能够响应多样化、灵活用户查询,准确识别相关片段及显著精彩时刻的系统。此外,我们提出了一种强大的基线模型——Moment-DETR,这是一种基于Transformer编码器-解码器架构的模型,将片段检索问题建模为直接的集合预测任务。该模型以提取的视频特征和查询特征作为输入,端到端地预测片段的时间坐标与显著性评分。尽管模型未引入任何人工先验知识,但实验结果表明,其性能在与精心设计的架构对比中仍具有竞争力。通过采用弱监督预训练(利用ASR生成的字幕进行预训练),Moment-DETR显著优于以往方法。最后,我们对Moment-DETR进行了多项消融实验与可视化分析,以深入理解其行为机制。相关数据与代码已公开发布于:https://github.com/jayleicn/moment_detr