6 个月前

摘要

视频摘要旨在从源视频中提炼出最重要的信息，生成一个精简的视频片段或一段文字叙述。传统方法通常根据输出形式（视频或文本）采用不同的处理策略，从而忽略了视觉摘要与文本摘要这两个语义相关任务之间的内在关联。为此，我们提出了一项新的联合视频与文本摘要任务：从一段长视频中同时生成一个缩短的视频片段及其对应的文本摘要，二者共同构成一个跨模态摘要（cross-modal summary）。生成的视频片段与文本叙述应在语义上保持高度一致。为实现这一目标，我们首先构建了一个大规模的人工标注数据集——VideoXum（X代表不同的模态）。该数据集基于ActivityNet进行重新标注。在剔除不符合长度要求的视频后，新数据集共包含14,001段长视频。每一段视频均配有由人工标注的视频摘要及其对应的叙事性文本摘要。在此基础上，我们设计了一种新型端到端模型——VTSUM-BILP，以应对该任务所面临的挑战。此外，我们提出了一种新的评估指标——VT-CLIPScore，用于衡量跨模态摘要在语义上的一致性。实验结果表明，所提出的模型在该新任务上取得了优异的性能，并为后续研究建立了基准。

源 PDF