6 个月前

统一多模态

计算机视觉

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

摘要

密集视频字幕生成旨在识别输入视频中感兴趣的事件，并为每个事件生成描述性字幕。以往的方法通常采用两阶段生成流程：首先为每个事件提出候选片段，随后为每个识别出的片段生成对应的字幕。尽管大规模序列生成预训练技术在统一多种任务的建模范式方面取得了显著进展，但迄今为止，像密集视频字幕这样更为复杂的任务仍未能充分受益于这一强大范式。本文提出一种新方法，将密集视频字幕的两个子任务——事件检测与描述生成——联合建模为单一序列生成任务，实现事件及其对应描述的同时预测。在YouCook2和ViTT数据集上的实验结果表明，该方法取得了令人鼓舞的性能，验证了将端到端密集视频字幕这类复杂任务整合进大规模预训练模型中的可行性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

计算机视觉

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

摘要

密集视频字幕生成旨在识别输入视频中感兴趣的事件，并为每个事件生成描述性字幕。以往的方法通常采用两阶段生成流程：首先为每个事件提出候选片段，随后为每个识别出的片段生成对应的字幕。尽管大规模序列生成预训练技术在统一多种任务的建模范式方面取得了显著进展，但迄今为止，像密集视频字幕这样更为复杂的任务仍未能充分受益于这一强大范式。本文提出一种新方法，将密集视频字幕的两个子任务——事件检测与描述生成——联合建模为单一序列生成任务，实现事件及其对应描述的同时预测。在YouCook2和ViTT数据集上的实验结果表明，该方法取得了令人鼓舞的性能，验证了将端到端密集视频字幕这类复杂任务整合进大规模预训练模型中的可行性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供