11 天前
端到端密集视频字幕生成作为序列生成
Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut

摘要
密集视频字幕生成旨在识别输入视频中感兴趣的事件,并为每个事件生成描述性字幕。以往的方法通常采用两阶段生成流程:首先为每个事件提出候选片段,随后为每个识别出的片段生成对应的字幕。尽管大规模序列生成预训练技术在统一多种任务的建模范式方面取得了显著进展,但迄今为止,像密集视频字幕这样更为复杂的任务仍未能充分受益于这一强大范式。本文提出一种新方法,将密集视频字幕的两个子任务——事件检测与描述生成——联合建模为单一序列生成任务,实现事件及其对应描述的同时预测。在YouCook2和ViTT数据集上的实验结果表明,该方法取得了令人鼓舞的性能,验证了将端到端密集视频字幕这类复杂任务整合进大规模预训练模型中的可行性。