2 个月前

层次多模态变压器用于视频摘要

Bin Zhao; Maoguo Gong; Xuelong Li
层次多模态变压器用于视频摘要
摘要

尽管循环神经网络(Recurrent Neural Networks, RNN)在视频摘要生成中取得了巨大成功,但基于RNN的方法忽视了视频帧之间的全局依赖性和多跳关系,这限制了其性能。Transformer是一种有效的模型,能够解决这一问题,并在机器翻译、视频字幕生成等序列建模任务中超越了基于RNN的方法。受Transformer的巨大成功以及视频的自然结构(帧-镜头-视频)的启发,我们开发了一种层次化的Transformer用于视频摘要生成,该模型可以捕捉帧和镜头之间的依赖关系,并通过利用由镜头组成的场景信息来总结视频。此外,我们认为音频和视觉信息对于视频摘要任务都是至关重要的。为了整合这两种信息,我们采用了双流编码方案,并在此基础上开发了一种多模态融合机制。本文提出的方法被命名为层次化多模态Transformer(Hierarchical Multimodal Transformer, HMT)。实际上,大量的实验表明,HMT在传统方法、基于RNN的方法和基于注意力机制的视频摘要生成方法中表现优异,超越了大多数现有方法。

层次多模态变压器用于视频摘要 | 最新论文 | HyperAI超神经