2 个月前

多模态Transformer用于非对齐多模态语言序列

Yao-Hung Hubert Tsai; Shaojie Bai; Paul Pu Liang; J. Zico Kolter; Louis-Philippe Morency; Ruslan Salakhutdinov
多模态Transformer用于非对齐多模态语言序列
摘要

人类语言通常是多模态的,包括自然语言、面部表情和声学行为的混合。然而,在建模此类多模态人类语言时间序列数据时存在两个主要挑战:1)由于每种模态的序列采样率不同,导致数据固有的非对齐问题;2)跨模态元素之间的长距离依赖关系。在本文中,我们引入了多模态变压器(Multimodal Transformer, MulT),以端到端的方式解决上述问题,而无需显式对齐数据。我们的模型核心是方向性成对跨模态注意力机制,该机制关注不同时间步长之间多模态序列的交互,并隐式地将一种模态的数据流适应到另一种模态。在对齐和非对齐多模态时间序列上的全面实验表明,我们的模型大幅优于现有方法。此外,实证分析表明,所提出的MulT中的跨模态注意力机制能够捕捉相关联的跨模态信号。

多模态Transformer用于非对齐多模态语言序列 | 最新论文 | HyperAI超神经