7 个月前

摘要

根据自然语言（NL）用户查询从视频中检测定制化片段与精彩时刻，是一个重要但研究尚不充分的课题。该方向面临的主要挑战之一是缺乏标注数据。为解决这一问题，我们提出了基于查询的视频精彩片段数据集（Query-based Video Highlights，简称 QVHighlights）。该数据集包含超过10,000个YouTube视频，涵盖广泛的主题，从生活类Vlog视频中的日常活动与旅行场景，到新闻视频中的社会与政治事件。每个视频均经过以下三方面的详尽标注：（1）由人工撰写的自由形式自然语言查询；（2）与查询相关的视频片段；（3）针对所有与查询相关的片段，提供五级评分的显著性（saliency）分数。这一全面的标注体系使得我们能够开发并评估能够响应多样化、灵活用户查询的系统，实现相关片段检测与显著精彩时刻识别。此外，我们提出了一种强大的基线模型——Moment-DETR，该模型采用Transformer编码器-解码器架构，将片段检索问题视为直接的集合预测任务。模型以提取的视频特征和查询特征作为输入，端到端地预测片段的时间坐标与显著性评分。尽管该模型未引入任何人工先验知识，但实验结果表明，其性能在与精心设计的架构对比中仍具有竞争力。通过使用自动语音识别（ASR）字幕进行弱监督预训练，Moment-DETR显著优于此前的各类方法。最后，我们对Moment-DETR进行了多项消融实验与可视化分析，进一步验证了模型各组件的有效性。相关数据与代码已公开发布于 GitHub：https://github.com/jayleicn/moment_detr。

源 PDF 查看代码