11 天前
语音情感识别中的Transformer时代开启:弥合效价差距
Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Felix Burkhardt, Florian Eyben, Björn W. Schuller

摘要
近年来,基于Transformer架构且采用自监督方式预训练的模型在多个机器学习任务中展现出巨大潜力。在音频领域,此类架构也已在语音情绪识别(Speech Emotion Recognition, SER)任务中取得成功应用。然而,现有研究尚未系统评估模型规模与预训练数据对下游性能的影响,且在泛化能力、鲁棒性、公平性以及效率等方面关注有限。本文针对多个在MSP-Podcast数据集的唤醒度(arousal)、支配度(dominance)和效价(valence)三个维度上微调的wav2vec 2.0与HuBERT预训练变体,开展了全面分析。同时,我们还利用IEMOCAP与MOSI数据集测试了跨语料库的泛化性能。据我们所知,本研究在不使用显式语言信息的情况下,实现了MSP-Podcast数据集上效价预测的最优性能,其一致性相关系数(Concordance Correlation Coefficient, CCC)达到0.638。此外,我们的研究发现,相较于基于CNN的基线模型,基于Transformer的架构对微小扰动具有更强的鲁棒性,并在不同生物性别群体间表现出良好的公平性,但在个体说话人之间仍存在不公平现象。更重要的是,我们首次揭示:这些模型在效价预测任务上取得卓越表现的关键原因,在于微调过程中通过Transformer层隐式学习到了语言信息。这一发现解释了为何其性能可与近期依赖显式文本信息的多模态方法相媲美。综上所述,基于Transformer的架构已成为语音情绪识别任务的新一代SOTA(State-of-the-Art)方法,但其在鲁棒性及个体说话人差异方面的局限性仍需进一步改进。为确保研究结果的可复现性,我们已将表现最佳的模型开源发布,供学术界共享与使用。