Free Spoken Digit Dataset (FSDD) 是一个简单的音频/语音数据集,由 8kHz 采样率的 wav 文件中的数字语音录音组成。这些录音经过裁剪,以尽量减少开头和结尾的沉默时间。数据集是开放的,意味着随着数据的不断贡献,它会随着时间增长。
FSDD 数据集目前包括(截至 2024 年 7 月):
数据集的文件按照特定的格式命名,例如:{digitLabel}_{speakerName}_{index}.wav
。例如,文件名 7_jackson_32.wav
表示演讲者 jackson 录制的数字 7 的第 32 个录音。
FSDD 数据集不仅可以用于学术研究,也鼓励社区贡献自己的录音。所有录音应该是单声道 8kHz 的 wav 文件,并且裁剪到最小化沉默。
做种 1
下载中 0
已完成 17
总下载 60