11 天前

一种改进的变分模态分解算法提升语音情感识别性能

David Hason Rudd, Huan Huo, Guandong Xu
一种改进的变分模态分解算法提升语音情感识别性能
摘要

基于语音信号的情绪识别(Emotion Recognition, ER)是一种稳健的方法,因其难以像面部表情或基于文本的情感分析那样被模仿。隐藏在情绪背后的有价值信息对于人机交互至关重要,使智能机器能够在现实世界中具备敏感的交互能力。以往的语音情绪识别研究主要聚焦于不同信号模态分解方法与隐含信息特征之间的关联。然而,不当的分解参数选择会导致信息成分的丢失,原因在于模态重复与混叠现象。相比之下,本研究提出了一种增强型变分模态分解算法——VGG-optiVMD,该方法能够有效区分有意义的语音特征,并通过评估其对VGG16网络展平层输出的影响,自动确定分解模态数量及数据保真度约束的最优平衡参数。研究中采用多种特征向量在不同数据库上训练VGG16网络,以评估VGG-optiVMD的可重复性与可靠性。通过拼接梅尔频率倒谱系数(MFCC)、色度图(Chromagram)、梅尔频谱图(Mel spectrogram)、Tonnetz图和频谱质心(spectral centroid)等特征,构建了一维、二维和三维特征向量。实验结果证实,信号采样率的精细调优与分解参数的协同优化显著提升了分类准确率,在柏林情绪数据库(Berlin EMO-DB)上实现了7类情绪识别的当前最优准确率,达到96.09%。

一种改进的变分模态分解算法提升语音情感识别性能 | 最新论文 | HyperAI超神经