Free Spoken Digit Dataset (FSDD) 数字识别音频数据集
Free Spoken Digit Dataset (FSDD) 是一个简单的音频/语音数据集,由 8kHz 采样率的 wav 文件中的数字语音录音组成。这些录音经过裁剪,以尽量减少开头和结尾的沉默时间。数据集是开放的,意味着随着数据的不断贡献,它会随着时间增长。
FSDD 数据集目前包括(截至 2024 年 7 月):
- 6 位不同的演讲者
- 3,000 条录音(每位演讲者 50 条)
- 英语发音
数据集的文件按照特定的格式命名,例如:{digitLabel}_{speakerName}_{index}.wav
。例如,文件名 7_jackson_32.wav
表示演讲者 jackson 录制的数字 7 的第 32 个录音。
FSDD 数据集不仅可以用于学术研究,也鼓励社区贡献自己的录音。所有录音应该是单声道 8kHz 的 wav 文件,并且裁剪到最小化沉默。
FSDD.torrent
做种 1正在下载 1已完成 78总下载次数 131