
摘要
识别人类非语音发声是一项重要任务,在自动语音转录、健康状况监测等场景中具有广泛的应用前景。然而,现有的数据集普遍存在样本数量较少或标签噪声较大的问题,导致当前最先进的音频事件分类模型在检测人类发声时表现不佳。为支持构建鲁棒且准确的发声识别系统,我们构建了一个名为VocalSound的数据集,包含来自3,365名不同个体的超过21,000条众包录音,涵盖笑声、叹气、咳嗽、清嗓、打喷嚏和吸鼻等六类发声。实验结果表明,将VocalSound数据集作为训练数据加入现有数据集后,模型在发声识别任务上的性能可提升41.9%。此外,与以往数据集不同,VocalSound数据集还包含丰富的元信息,如说话人年龄、性别、母语、所在国家及健康状况等,为深入研究发声特征与个体属性之间的关系提供了有力支持。