6 个月前

多模态表征

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

摘要

学习烹饪、汽车保养和家居维修等具体实践技能，如今越来越多地通过教学视频实现。研究表明，为这类视频添加时间戳标注等元信息，能够显著提升用户的观看体验。然而，自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献：首先，我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签（Video Timeline Tags, ViTT），该数据集包含多种教学视频及其对应的时间戳标注。其次，我们探索了多种多模态序列到序列的预训练策略，充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集，对密集视频字幕模型进行了预训练与后续微调。实验结果表明，这些模型具备良好的泛化能力，并在多种不同类型的教学视频上均表现出较强的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

摘要

学习烹饪、汽车保养和家居维修等具体实践技能，如今越来越多地通过教学视频实现。研究表明，为这类视频添加时间戳标注等元信息，能够显著提升用户的观看体验。然而，自动产生此类标注仍面临较大挑战。本文提出了两项相关贡献：首先，我们构建并发布了全新的密集视频字幕数据集——视频时间轴标签（Video Timeline Tags, ViTT），该数据集包含多种教学视频及其对应的时间戳标注。其次，我们探索了多种多模态序列到序列的预训练策略，充分利用大规模无监督的视频与类似字幕的文本数据。我们基于YouCook2和ViTT两个数据集，对密集视频字幕模型进行了预训练与后续微调。实验结果表明，这些模型具备良好的泛化能力，并在多种不同类型的教学视频上均表现出较强的鲁棒性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供