Free Spoken Digit Dataset (FSDD) 数字识别音频数据集

日期

5 个月前

大小

15.67 MB

发布地址

github.com

许可协议

CC BY-SA 4.0

Free Spoken Digit Dataset (FSDD) 是一个简单的音频/语音数据集,由 8kHz 采样率的 wav 文件中的数字语音录音组成。这些录音经过裁剪,以尽量减少开头和结尾的沉默时间。数据集是开放的,意味着随着数据的不断贡献,它会随着时间增长。

FSDD 数据集目前包括(截至 2024 年 7 月):

  • 6 位不同的演讲者
  • 3,000 条录音(每位演讲者 50 条)
  • 英语发音

数据集的文件按照特定的格式命名,例如:{digitLabel}_{speakerName}_{index}.wav 。例如,文件名 7_jackson_32.wav 表示演讲者 jackson 录制的数字 7 的第 32 个录音。

FSDD 数据集不仅可以用于学术研究,也鼓励社区贡献自己的录音。所有录音应该是单声道 8kHz 的 wav 文件,并且裁剪到最小化沉默。

FSDD.torrent

做种 1

下载中 0

已完成 17

总下载 60

  • FSDD/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • free-spoken-digit-dataset-master.zip
          15.67 MB