
摘要
学习烹饪、汽车保养和家居维修等具体实践技能,如今越来越多地通过教学视频实现。研究表明,为这类视频添加时间戳标注等元信息,能够显著提升用户的观看体验。然而,自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献:首先,我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签(Video Timeline Tags, ViTT),该数据集包含多种教学视频及其对应的时间戳标注。其次,我们探索了多种多模态序列到序列的预训练策略,充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集,对密集视频字幕模型进行了预训练与后续微调。实验结果表明,这些模型具备良好的泛化能力,并在多种不同类型的教学视频上均表现出较强的鲁棒性。