12 天前
浅层网络与深层神经网络的比较:基于音频数据的人类情感分类的实证分析
{and Rajiv Misra, Rohit Kumar Gupta, Anurag Choubey, Sourajit Behera, Karanjit Singh Gill, Chandresh S. Kanani}
摘要
人类情绪可通过多种方式识别,包括分析语音的声调特征、言语表达前的面部表情,以及无需言语即可传达情绪的肢体动作。准确识别个体的情绪状态,有助于理解其所处情境并作出相应反应。这一现象在日常人机交互的反馈系统中同样成立,尤其是在智能家居解决方案中所采用的系统。自动化情绪识别领域涉及多个研究方向的应用,涵盖计算机视觉、生理学乃至人工智能等多个学科。本研究聚焦于基于语音表达方式,将情绪划分为八类:中性、喜悦、悲伤、愤怒、平静、恐惧、厌恶与惊讶,所采用的数据来源于“瑞尔森音频-视频情绪语音与歌曲数据库”(Ryerson Audio-Visual Database of Emotional Speech and Song, RAVDESS)。本文提出一种新颖的音频对话情绪分类方法,基于语音信号进行情绪识别。该基于声学特征的情绪分类方法不依赖于特定语言,因而具备跨语言情绪识别的潜力。本研究的主要目标是构建一个能够实时自动识别情绪的系统。通过一系列仿真实验,我们采用浅层卷积神经网络(shallow CNN)模型,取得了最高达82.99%的分类准确率,验证了所提方法的有效性与可行性。