11 天前
emotion2vec:面向语音情感表征的自监督预训练
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen

摘要
我们提出了一种通用的语音情感表示模型——emotion2vec。emotion2vec通过自监督在线蒸馏方法,在开源的无标签情感数据上进行预训练,预训练过程中同时结合了话语级损失与帧级损失。在主流的IEMOCAP数据集上,仅需对emotion2vec微调线性层即可完成语音情感识别任务,其性能超越了当前最先进的通用预训练模型以及专用情感识别模型。此外,emotion2vec在10种不同语言的语音情感识别数据集上均展现出一致的性能提升。该模型在其他情感相关任务中也表现优异,包括歌曲情感识别、对话中的情感预测以及情感分析。通过对比实验、消融实验与可视化分析,全面验证了emotion2vec的通用性能力。据我们所知,emotion2vec是首个在多种情感相关任务中实现通用表示的模型,填补了该领域的研究空白。