8 个月前

多模态表征

Minkuk Kim Hyeon Bae Kim Jinyoung Moon Jinwoo Choi Seong Tae Kim

摘要

密集视频字幕生成研究引起了广泛关注，其目标是自动定位并描述未剪辑视频中的所有事件。一些研究通过将密集视频字幕生成设计为事件定位和事件描述的多任务问题，引入了考虑任务间关系的方法。然而，仅使用视觉输入来解决这两个任务具有挑战性，因为缺乏语义内容。在本研究中，我们提出了一种受人类认知信息处理启发的新框架来应对这一挑战。我们的模型利用外部记忆来整合先验知识。为此，我们提出了一种基于跨模态视频-文本匹配的记忆检索方法。为了有效融合检索到的文本特征，我们设计了一个多功能编码器和一个包含视觉和文本交叉注意力模块的解码器。我们在ActivityNet Captions和YouCook2数据集上进行了对比实验，以展示所提方法的有效性。实验结果表明，即使没有从大规模视频数据集中进行广泛的预训练，我们的模型仍表现出令人鼓舞的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Minkuk Kim Hyeon Bae Kim Jinyoung Moon Jinwoo Choi Seong Tae Kim

摘要

密集视频字幕生成研究引起了广泛关注，其目标是自动定位并描述未剪辑视频中的所有事件。一些研究通过将密集视频字幕生成设计为事件定位和事件描述的多任务问题，引入了考虑任务间关系的方法。然而，仅使用视觉输入来解决这两个任务具有挑战性，因为缺乏语义内容。在本研究中，我们提出了一种受人类认知信息处理启发的新框架来应对这一挑战。我们的模型利用外部记忆来整合先验知识。为此，我们提出了一种基于跨模态视频-文本匹配的记忆检索方法。为了有效融合检索到的文本特征，我们设计了一个多功能编码器和一个包含视觉和文本交叉注意力模块的解码器。我们在ActivityNet Captions和YouCook2数据集上进行了对比实验，以展示所提方法的有效性。实验结果表明，即使没有从大规模视频数据集中进行广泛的预训练，我们的模型仍表现出令人鼓舞的性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供