2 个月前

将复发动力学整合到语音情感识别中

Efthymios Tzinis; Georgios Paraskevopoulos; Christos Baziotis; Alexandros Potamianos
将复发动力学整合到语音情感识别中
摘要

我们研究了能够捕捉嵌入在语音信号中的非线性复发动力学特征在语音情感识别(SER)任务中的性能。通过对每个语音帧的相空间进行重构并计算其相应的复发图(Recurrence Plot, RP),可以揭示出复杂的结构,这些结构可以通过进行复发量化分析(Recurrence Quantification Analysis, RQA)来测量。这些测量值通过在段落和话语期间使用统计泛函进行聚合。我们在三个数据库上使用不同的分类方法报告了所提出的特征集的SER结果。当将所提出的特征与传统特征集融合时,我们在说话者依赖(SD)和说话者独立(SI)的SER任务中分别比基线提高了5.7%和10.7%的未加权准确率。采用基于段落的方法,我们使用双向循环神经网络在IEMOCAP数据集上展示了最先进的性能。