HyperAI超神经

ChildMandarin 儿童中文对话语音数据集

日期

a month ago

大小

3.4 GB

机构

发布地址

github.com

ChildMandarin 数据集是智源研究院联合南开大学计算机学院人类语言技术实验室 HLT Lab,于 2025 年发布的一个针对 3 到 5 岁幼儿的综合普通话语音数据集。该数据集专为解决该年龄段普通话语音数据稀缺的问题而设计,相关论文成果为:「ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5」,旨在支持儿童语音识别、说话人验证等相关研究领域的发展。

数据集特点:

  • 数据规模大:397 名儿童,共计 41.25 小时 3-5 岁对话语音,在同类数据集中具备一定优势
  • 地域覆盖广:数据采自 22 个省市,确保了地域多样性,涵盖不同口音和语音习惯
  • 自然真实交互:采用家长引导式对话的采集方式,以模拟自然交流场景,使语音更具真实性

ChildMandarin.torrent
做种 2正在下载 0已完成 14总下载次数 22
  • ChildMandarin/
    • README.md
      1.64 KB
    • README.txt
      3.27 KB
      • data/
        • ChildMandarin.zip
          3.4 GB