8 天前

多模态预训练在密集视频字幕生成中的应用

Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut
多模态预训练在密集视频字幕生成中的应用
摘要

学习烹饪、汽车保养和家居维修等具体实践技能,如今越来越多地通过教学视频实现。研究表明,为这类视频添加时间戳标注等元信息,能够显著提升用户的观看体验。然而,自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献:首先,我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签(Video Timeline Tags, ViTT),该数据集包含多种教学视频及其对应的时间戳标注。其次,我们探索了多种多模态序列到序列的预训练策略,充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集,对密集视频字幕模型进行了预训练与后续微调。实验结果表明,这些模型具备良好的泛化能力,并在多种不同类型的教学视频上均表现出较强的鲁棒性。

多模态预训练在密集视频字幕生成中的应用 | 最新论文 | HyperAI超神经