摘要
在人类语音中寻找情感生物标志物是一项具有挑战性的研究领域。以往的研究主要聚焦于从语音中预测情感状态,而本研究则拓展至多种与情感爆发相关的语音任务。受自监督学习在自动语音识别领域取得成功的启发,我们采用wav2vec 2.0的多种变体提取声学嵌入,应用于四个情感爆发语音任务:High、Two、Culture和Type。在所有任务中采用相似的网络架构,评估结果表明,wav2vec 2.0的变体在情感爆发语音任务中相较于传统声学特征展现出更大的潜力。我们对传统声学特征与所提取的声学嵌入在不同数量种子(二十次随机种子)下的表现进行了评估,并在验证集上报告了最大得分与平均得分及其标准差。针对所有任务,基于验证集的三次高分结果用于生成测试集的预测。与以往研究相比,本方法在测试集上取得了显著的性能提升。