HyperAIHyperAI

Command Palette

Search for a command to run...

Vocalsound:一个用于提升人类嗓音识别的数据集

Yuan Gong Jin Yu James Glass

摘要

识别人类非语音发声是一项重要任务,在自动语音转录、健康状况监测等场景中具有广泛的应用前景。然而,现有的数据集普遍存在样本数量较少或标签噪声较大的问题,导致当前最先进的音频事件分类模型在检测人类发声时表现不佳。为支持构建鲁棒且准确的发声识别系统,我们构建了一个名为VocalSound的数据集,包含来自3,365名不同个体的超过21,000条众包录音,涵盖笑声、叹气、咳嗽、清嗓、打喷嚏和吸鼻等六类发声。实验结果表明,将VocalSound数据集作为训练数据加入现有数据集后,模型在发声识别任务上的性能可提升41.9%。此外,与以往数据集不同,VocalSound数据集还包含丰富的元信息,如说话人年龄、性别、母语、所在国家及健康状况等,为深入研究发声特征与个体属性之间的关系提供了有力支持。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供