16 天前

emoDARTS:面向卓越语音情感识别的CNN与序列神经网络架构联合优化

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bjorn W. Schuller, Carlos Busso
emoDARTS:面向卓越语音情感识别的CNN与序列神经网络架构联合优化
摘要

语音情感识别(Speech Emotion Recognition, SER)对于使计算机能够理解人类交流中所传达的情感至关重要。近年来,深度学习(Deep Learning, DL)技术的快速发展显著提升了SER模型的性能。然而,设计最优的深度学习架构需要专业知识和大量的实验验证。幸运的是,神经架构搜索(Neural Architecture Search, NAS)为自动寻找最佳深度学习模型提供了潜在解决方案。其中,可微分架构搜索(Differentiable Architecture Search, DARTS)是一种高效且具有潜力的模型搜索方法。本研究提出emoDARTS,一种基于DARTS优化的联合卷积神经网络(CNN)与序列神经网络(SeqNN:包括LSTM、RNN)的架构,旨在进一步提升SER性能。现有文献支持将CNN与LSTM相结合以增强模型表现。尽管此前已有研究利用DARTS分别搜索CNN和LSTM的网络操作,但本研究提出了一种新颖的机制,首次实现通过DARTS同步优化CNN与SeqNN操作的选择。与以往工作不同,我们不对CNN的层序结构施加限制,而是让DARTS在DARTS单元内部自主选择最优的层序组合。实验结果表明,emoDARTS在IEMOCAP、MSP-IMPROV和MSP-Podcast三个公开数据集上的表现均优于传统设计的CNN-LSTM模型,并超越了此前基于DARTS在CNN-LSTM架构上所报告的最佳SER性能。

emoDARTS:面向卓越语音情感识别的CNN与序列神经网络架构联合优化 | 最新论文 | HyperAI超神经