基于自注意力权重修正的语音情感识别:融合声学与文本特征
语音情感识别(Speech Emotion Recognition, SER)对于理解说话者的意图至关重要。近年来,一些研究团队尝试通过双向长短期记忆网络(Bidirectional Long Short-Term Memory, BLSTM)从语音序列中提取特征,并结合自注意力机制(self-attention mechanism)聚焦于语音序列中的关键部分,以提升SER性能。此外,将语音信息与文本信息相结合也能进一步增强SER的效果,这一过程可通过自动语音识别(Automatic Speech Recognition, ASR)系统自动完成。然而,在语音中存在情感表达时,ASR的性能往往会下降。尽管已有方法可用于提升情感语音下的ASR性能,但这些方法通常需要对ASR模型进行微调,计算成本较高,且可能导致丢失对判断语音片段中情感存在至关重要的线索,从而影响SER的准确性。为解决上述问题,本文提出一种基于BLSTM与自注意力机制的SER方法,引入自注意力权重校正(Self-Attention Weight Correction, SAWC)并结合置信度度量。该方法应用于SER中的声学特征提取器与文本特征提取器,用于动态调整语音片段和词语的重要性权重,尤其针对ASR识别错误可能性较高的部分。所提出的SAWC机制在文本特征中降低识别错误词语的权重,同时在声学特征中增强包含这些词语的语音片段的重要性。在交互式情感双人动作捕捉数据集(Interactive Emotional Dyadic Motion Capture, IEMOCAP)上的实验结果表明,本方法实现了76.6%的加权平均准确率,优于现有主流方法。此外,我们还深入分析了SAWC在不同特征提取器中的具体作用行为,验证了其在提升SER鲁棒性方面的有效性。