17 天前

TransModality：一种基于Transformer的端到端多模态情感分析融合方法

Zilong Wang, Zhaohong Wan, Xiaojun Wan

摘要

多模态情感分析是一个重要的研究领域，旨在通过从文本、视觉和语音模态中提取的特征，预测说话者的情感倾向。其核心挑战在于多模态信息的融合方法。尽管已有多种融合策略被提出，但很少有方法采用端到端的翻译模型来挖掘不同模态之间的细微关联。受近期Transformer在机器翻译领域取得成功的启发，我们提出了一种新的融合方法——TransModality，用于解决多模态情感分析任务。我们假设模态间的相互翻译有助于构建说话人语句更优的联合表示。借助Transformer架构，所学习到的特征能够同时体现源模态与目标模态的信息。我们在多个多模态数据集（CMU-MOSI、MELD、IEMOCAP）上验证了所提模型的有效性。实验结果表明，该方法在多项指标上达到了当前最优（state-of-the-art）性能。