15 天前

Vocalsound：一个用于提升人类嗓音识别的数据集

Yuan Gong, Jin Yu, James Glass

摘要

识别人类非语音发声是一项重要任务，在自动语音转录、健康状况监测等场景中具有广泛的应用前景。然而，现有的数据集普遍存在样本数量较少或标签噪声较大的问题，导致当前最先进的音频事件分类模型在检测人类发声时表现不佳。为支持构建鲁棒且准确的发声识别系统，我们构建了一个名为VocalSound的数据集，包含来自3,365名不同个体的超过21,000条众包录音，涵盖笑声、叹气、咳嗽、清嗓、打喷嚏和吸鼻等六类发声。实验结果表明，将VocalSound数据集作为训练数据加入现有数据集后，模型在发声识别任务上的性能可提升41.9%。此外，与以往数据集不同，VocalSound数据集还包含丰富的元信息，如说话人年龄、性别、母语、所在国家及健康状况等，为深入研究发声特征与个体属性之间的关系提供了有力支持。