AISHELL-Hi, Mia 中英文唤醒词语音数据库

日期

10 个月前

机构

下载帮助

HI-MIA 数据集用于 2019 年 AISHELL 扬声器验证挑战赛。它是从名为 AISHELL-WakeUp-1 的更大数据库中提取的。

该数据集分为 HI-MIA 数据集、训练集、内容为中英文唤醒词「Hi, Mia」。数据是使用麦克风阵列和 Hi-Fi 麦克风在真实家庭环境中收集的。该论文描述了基线系统的收集过程和开发。挑战中使用的数据是从 1 个 Hi-Fi 麦克风和 1/3/5 米的 16 通道圆形麦克风阵列中提取的。内容是中文的唤醒词。整个集合分为 train(254 人)、 dev(42 人)和 test(44 人)子集。测试子集提供了配对的目标/非目标答案来评估验证结果。

AISHELL-WakeUp-1 语音数据库共有唤醒词语音 3,936,003 条,共 1561.12 小时。录音语言为中文和英文;录音地区为中国。录音文本为「你好,米雅」「hi, mia」唤醒词。该数据集邀请了 254 名发言人参与录制。录制过程在真实家居环境中,设置了 7 个录音位,使用 6 个圆形 16 路 PDM 麦克风阵列录音板做远讲拾音 (16kHz,16bit) 、 1 个高保真麦克风做近讲拾音 (44.1kHz, 16bit) 。此数据库经过专业语音校对人员转写标注,并通过严格质量检验,字正确率 100% 。可用于声纹识别、语音唤醒识别等研究使用。