HyperAIHyperAI

Command Palette

Search for a command to run...

层次多模态 Transformer 用于视频摘要

Bin Zhao Maoguo Gong Xuelong Li

摘要

尽管循环神经网络(Recurrent Neural Networks, RNN)在视频摘要生成中取得了巨大成功,但基于RNN的方法忽视了视频帧之间的全局依赖性和多跳关系,这限制了其性能。Transformer是一种有效的模型,能够解决这一问题,并在机器翻译、视频字幕生成等序列建模任务中超越了基于RNN的方法。受Transformer的巨大成功以及视频的自然结构(帧-镜头-视频)的启发,我们开发了一种层次化的Transformer用于视频摘要生成,该模型可以捕捉帧和镜头之间的依赖关系,并通过利用由镜头组成的场景信息来总结视频。此外,我们认为音频和视觉信息对于视频摘要任务都是至关重要的。为了整合这两种信息,我们采用了双流编码方案,并在此基础上开发了一种多模态融合机制。本文提出的方法被命名为层次化多模态Transformer(Hierarchical Multimodal Transformer, HMT)。实际上,大量的实验表明,HMT在传统方法、基于RNN的方法和基于注意力机制的视频摘要生成方法中表现优异,超越了大多数现有方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供