11 天前

基于语音特征与词嵌入的语音情感识别

{and Masato Akagi, Kiyoaki Shirai, Bagus Tris Atmaja}
摘要

情感识别可基于多种模态实现自动化。本文提出了一种基于语音特征与词嵌入(word embedding)的分类式语音情感识别方法。文本特征可与语音特征相结合以提升情感识别的准确性,且这两类特征均可从语音中提取。在本研究中,通过去除话语中的静音段,获取语音片段,并从中提取声学特征用于基于语音的情感识别。词嵌入被用作文本情感识别的输入特征,同时提出将语音与文本特征联合使用,以提升整体性能。在模型结构上,采用两层单向长短期记忆网络(LSTM)处理文本特征,而声学特征则通过全连接网络进行处理。随后,通过早期融合(early fusion)方式,利用全连接网络将两个分支的输出进行合并,最终输出四个情感类别之一的预测结果。实验结果表明,语音与文本特征的联合使用在识别准确率上显著优于单一模态:联合模型达到75.49%的准确率,显著高于仅使用语音特征的58.29%,也优于仅使用文本特征的68.01%。该结果在相同数据集与相同模态条件下,也优于此前其他研究者提出的方法。

基于语音特征与词嵌入的语音情感识别 | 最新论文 | HyperAI超神经