LibriSpeech ASR Corpus

LibriSpeech ASR corpus 语料库是由 Vassil Panayotov 在 Daniel Povey 的协助下制作,其中包括约 1000 小时 16kHz 阅读英语演讲内容,以及 1000 小时的英文发音和对应文字。 LibriSpeech ASR corpu…

TIMIT 方言录音数据集

TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发…

Broadcast News 大型文本数据集

Broadcast News 是用于下一个单词预测的大型文本数据集,其中包括 1996 年的广播新闻语音语料库包含来自 ABC,CNN 和 CSPAN 电视网以及 NPR 和 PRI 无线电网络的 104 小时广播,并附有相应的成绩单。 该系列是为 DARPA「HUB4」项目提供…

Google Audioset 音频事件数据集

Google Audioset 是手动注释音频事件的大型数据集,旨在为音频事件检测提供一个通用实际的评估任务,以及全面的声音事件词汇的起点。 它包含了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人标记的 10 秒声音片段,该数据集涵盖人类和…

TED-LIUM 英语语音识别训练语料库

TED-LIUM 是来自 TED 讲座的语音识别训练语料库,它带有转录,采样频率为 16kHz 的音频片段,合计包含大约 118 个小时的演讲。 该数据集由缅因大学计算机科学实验室(LIUM)于 2012 年创建。 主要发布人:A. Rousseau, P. Deléglise,…

CHIME 语音数据集

CHiME 数据集来源于 CHiME 挑战的语音片段,主要用于语音识别。 CHiME 挑战是一套自动语音识别评估系统,其主要用于日常环境中的远程多麦克风语音识别。 该数据集包括小词汇 ASR 任务和静态扬声器在家庭环境中双耳录制的音频、移动扬声器和中等词汇 ASR 任务在家庭环境…

VoxForge 语音语料库和声学模型库

VoxForge 是开源语音识别引擎的语音语料库和声学模型库,该数据集由 VoxForge 发布,其创建的初衷是为免费和开源的语音识别引擎收集标注录音。 发布者以 GPL 协议开放所有录音文件,并以此制作声学模型供开源语音识别引擎使用。

TIMIT 语音读取语料数据集

TIMIT 语音读取语料数据集是一套声学-音素连续语音语料库,其旨在为声学语音研究以及自动语音识别系统的开发与评估提供语音数据。 TIMIT 一共包含 6300 个句子,每段音频的语音采样频率为 16kHz,包含由八种主要美国英语方言组成的 630 个录音片段,每个方言都有 10…

1 Billion Word Language Model Benchmark R13 Output 基准语料库

1 Billion Word Language Model Benchmark R13 Output 是一套新的基准语料库,被用于衡量和统计语言建模进展,凭借近 10 亿字的培训数据,该基准测试可以快速评估新的语言建模技术,并将其与其他新技术相结合。 该数据集由康奈尔大学于 20…