摘要
本文提出了一种用于多语言口语语句情感识别的卷积神经网络(Convolutional Neural Network)。本研究旨在构建一个能够融合文本与声学信息、并兼容多种语言的情感识别模型。所提出的模型采用端到端的深度架构,直接输入原始文本与音频数据,并通过卷积层提取多层次的分类特征。此外,我们证明了该模型得益于多语言无监督文本特征的使用,在多种语言上均能取得优异的性能表现。值得一提的是,本方案无需对文本与音频进行词级或音素级对齐。所提出的模型PATHOSnet在多个包含不同口语语言的数据集(IEMOCAP、EmoFilm、SES和AESI)上进行了训练与评估。在训练前,我们仅在IEMOCAP数据集上进行超参数调优,该数据集提供了具有情感内容的英语口语录音与真实转录文本。最终模型在所选数据集上对四种情感类别均达到了当前最先进的性能水平。