18 天前

跨模态 BERT 用于文本-音频情感分析

{Kai Gao, Hua Xu, Kaicheng Yang}
摘要

多模态情感分析是一个新兴的研究领域,旨在使机器能够识别、理解并表达情感。通过跨模态交互,可以获取说话者更全面的情感特征。双向编码器表示模型(Bidirectional Encoder Representations from Transformers,简称BERT)是一种高效的预训练语言表示模型,在问答、自然语言推理等十一个自然语言处理任务上,通过微调已取得当前最优的性能表现。然而,以往大多数研究仅基于文本数据对BERT进行微调,如何引入多模态信息以学习更优的表示仍值得深入探索。本文提出了一种跨模态BERT模型(Cross-Modal BERT,简称CM-BERT),该模型利用文本与音频模态之间的交互,对预训练的BERT模型进行微调。CM-BERT的核心组件——掩码多模态注意力机制,通过融合文本与音频模态的信息,动态调整词语的权重。我们在公开的多模态情感分析数据集CMU-MOSI和CMU-MOSEI上对所提方法进行了评估。实验结果表明,该方法在各项指标上均显著优于先前的基线模型以及仅使用文本的BERT微调方法。此外,我们对掩码多模态注意力机制进行了可视化分析,结果证明其能够合理地根据音频模态信息调整词语的重要性权重,从而增强模型对情感语义的理解能力。

跨模态 BERT 用于文本-音频情感分析 | 最新论文 | HyperAI超神经