11 天前
LSSED:面向语音情感识别的大规模数据集与基准测试
Weiquan Fan, Xiangmin Xu, Xiaofen Xing, Weidong Chen, Dongyan Huang

摘要
语音情感识别是下一代人机交互(HCI)技术的重要推动力。然而,当前已有的小型语音情感数据库在规模上的局限性严重制约了相关研究的发展。本文提出了一项具有挑战性的大规模英文语音情感数据集——LSSED,该数据集共采集自820名受试者,旨在模拟真实世界中的数据分布。此外,我们还发布了基于LSSED预训练的多个模型,这些模型不仅有助于推动语音情感识别技术的发展,还可迁移应用于心理健康分析等下游任务,尤其在数据获取极为困难的场景下展现出显著价值。实验结果表明,大规模数据集的必要性以及预训练模型的有效性。该数据集将公开发布于 https://github.com/tobefans/LSSED。