8 个月前

计算机视觉

Bin Zhao Maoguo Gong Xuelong Li

摘要

尽管循环神经网络（Recurrent Neural Networks, RNN）在视频摘要生成中取得了巨大成功，但基于RNN的方法忽视了视频帧之间的全局依赖性和多跳关系，这限制了其性能。Transformer是一种有效的模型，能够解决这一问题，并在机器翻译、视频字幕生成等序列建模任务中超越了基于RNN的方法。受Transformer的巨大成功以及视频的自然结构（帧-镜头-视频）的启发，我们开发了一种层次化的Transformer用于视频摘要生成，该模型可以捕捉帧和镜头之间的依赖关系，并通过利用由镜头组成的场景信息来总结视频。此外，我们认为音频和视觉信息对于视频摘要任务都是至关重要的。为了整合这两种信息，我们采用了双流编码方案，并在此基础上开发了一种多模态融合机制。本文提出的方法被命名为层次化多模态Transformer（Hierarchical Multimodal Transformer, HMT）。实际上，大量的实验表明，HMT在传统方法、基于RNN的方法和基于注意力机制的视频摘要生成方法中表现优异，超越了大多数现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Bin Zhao Maoguo Gong Xuelong Li

摘要

尽管循环神经网络（Recurrent Neural Networks, RNN）在视频摘要生成中取得了巨大成功，但基于RNN的方法忽视了视频帧之间的全局依赖性和多跳关系，这限制了其性能。Transformer是一种有效的模型，能够解决这一问题，并在机器翻译、视频字幕生成等序列建模任务中超越了基于RNN的方法。受Transformer的巨大成功以及视频的自然结构（帧-镜头-视频）的启发，我们开发了一种层次化的Transformer用于视频摘要生成，该模型可以捕捉帧和镜头之间的依赖关系，并通过利用由镜头组成的场景信息来总结视频。此外，我们认为音频和视觉信息对于视频摘要任务都是至关重要的。为了整合这两种信息，我们采用了双流编码方案，并在此基础上开发了一种多模态融合机制。本文提出的方法被命名为层次化多模态Transformer（Hierarchical Multimodal Transformer, HMT）。实际上，大量的实验表明，HMT在传统方法、基于RNN的方法和基于注意力机制的视频摘要生成方法中表现优异，超越了大多数现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供