ChildMandarin 儿童中文对话语音数据集
ChildMandarin 数据集是智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab,于 2025 年发布的一个针对 3 到 5 岁幼儿的综合普通话语音数据集。该数据集专为解决该年龄段普通话语音数据稀缺的问题而设计,相关论文成果为:「ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5」,旨在支持儿童语音识别、说话人验证等相关研究领域的发展。
数据集特点:
- 数据规模大:397 名儿童,共计 41.25 小时 3-5 岁对话语音,在同类数据集中具备一定优势
- 地域覆盖广:数据采自 22 个省市,确保了地域多样性,涵盖不同口音和语音习惯
- 自然真实交互:采用家长引导式对话的采集方式,以模拟自然交流场景,使语音更具真实性
ChildMandarin.torrent
做种 2正在下载 0已完成 14总下载次数 22