VoxCeleb2 是一个源自开源媒体的大规模说话人 (Speaker) 识别数据集,由超过 6 千名说话者的一百万条语料组成。由于该数据集是在自然场景中收集的,因此语音片段中不乏笑声、交谈声、频道效果、音乐等干扰。 VoxCeleb2 中的语料是多语言的,说话者来自 145 个…
分类: 语音识别
VoxCeleb2
THCHS30 中文语音数据集
THCHS30是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库,可以用于中文语音识别系统的开发。该数据集语音数据是在安静的办公室环境下录取的,总时长超过30个小时。采样频率16kHz,采样大小16bits。
Common Voice 英文语音数据集
Common Voice英文数据集是由Common Voice提供,包含39577位测试者参与录音的MP3文件以及相对应的文本文件,总时长为1087小时。参与录音的测试者由不同的口音、年龄、性别等差异,可被用于英文语音识别等任务的研究
Common Voice 中文语音数据集
Common Voice中文数据集是由Common Voice提供,包含288位测试者参与录音的MP3文件以及相对应的文本文件,总时长为12小时。参与录音的测试者由不同的口音、年龄、性别等差异,可被用于中文语音识别等任务的研究
AVSpeech – 视听语音数据集
AVSpeech is a new, large-scale audio-visual dataset comprising speech video clips with no interfering backgruond noises. The segments are 3-…
LibriSpeech ASR Corpus
LibriSpeech ASR corpus 语料库是由 Vassil Panayotov 在 Daniel Povey 的协助下制作,其中包括约 1000 小时 16kHz 阅读英语演讲内容,以及 1000 小时的英文发音和对应文字。 LibriSpeech ASR corpu…
TIMIT 方言录音数据集
TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发…
Broadcast News 大型文本数据集
Broadcast News 是用于下一个单词预测的大型文本数据集,其中包括 1996 年的广播新闻语音语料库包含来自 ABC,CNN 和 CSPAN 电视网以及 NPR 和 PRI 无线电网络的 104 小时广播,并附有相应的成绩单。 该系列是为 DARPA「HUB4」项目提供…
Google Audioset 音频事件数据集
Google Audioset 是手动注释音频事件的大型数据集,旨在为音频事件检测提供一个通用实际的评估任务,以及全面的声音事件词汇的起点。 它包含了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人标记的 10 秒声音片段,该数据集涵盖人类和…
TED-LIUM 英语语音识别训练语料库
TED-LIUM 是来自 TED 讲座的语音识别训练语料库,它带有转录,采样频率为 16kHz 的音频片段,合计包含大约 118 个小时的演讲。 该数据集由缅因大学计算机科学实验室(LIUM)于 2012 年创建。 主要发布人:A. Rousseau, P. Deléglise,…
CHIME 语音数据集
CHiME 数据集来源于 CHiME 挑战的语音片段,主要用于语音识别。 CHiME 挑战是一套自动语音识别评估系统,其主要用于日常环境中的远程多麦克风语音识别。 该数据集包括小词汇 ASR 任务和静态扬声器在家庭环境中双耳录制的音频、移动扬声器和中等词汇 ASR 任务在家庭环境…
VoxForge 语音语料库和声学模型库
VoxForge 是开源语音识别引擎的语音语料库和声学模型库,该数据集由 VoxForge 发布,其创建的初衷是为免费和开源的语音识别引擎收集标注录音。 发布者以 GPL 协议开放所有录音文件,并以此制作声学模型供开源语音识别引擎使用。
TIMIT 语音读取语料数据集
TIMIT 语音读取语料数据集是一套声学-音素连续语音语料库,其旨在为声学语音研究以及自动语音识别系统的开发与评估提供语音数据。 TIMIT 一共包含 6300 个句子,每段音频的语音采样频率为 16kHz,包含由八种主要美国英语方言组成的 630 个录音片段,每个方言都有 10…
1 Billion Word Language Model Benchmark R13 Output 基准语料库
1 Billion Word Language Model Benchmark R13 Output 是一套新的基准语料库,被用于衡量和统计语言建模进展,凭借近 10 亿字的培训数据,该基准测试可以快速评估新的语言建模技术,并将其与其他新技术相结合。 该数据集由康奈尔大学于 20…