LibriSpeech ASR Corpus

LibriSpeech ASR corpus 语料库是由 Vassil Panayotov 在 Daniel Povey 的协助下制作,其中包括约 1000 小时 16kHz 阅读英语演讲内容,以及 1000 小时的英文发音和对应文字。 LibriSpeech ASR corpu…

Last.fm Dataset 歌曲数据集

​Last.fm 是一个歌曲数据集,它包含最大的歌曲级别标签和预先计算的歌曲级别相似性研究。 所有的数据都与 MSD 歌曲相关,并可链接到其他 MSD 资源: 音频特性、艺术家数据、歌词等。 该数据包含 584,897 首曲目,522,366 个独特的标签,8,598,630 个…

TIMIT 方言录音数据集

TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发…

OpenMIIR 音乐收听脑电图数据集

OpenMIIR 是基于音乐感知和想象中拍摄的脑电图(EEG)录音的公共领域数据集。 该数据记录了 10 名测试者在被试收听和想象音乐片段时记录的脑电图数据,其中包括 12 个音乐片段,每个音乐片段大约 7-16 秒且包括不同的音乐流派。 该数据集由欧文实验室等于 2015 年发…

Google Audioset 音频事件数据集

Google Audioset 是手动注释音频事件的大型数据集,旨在为音频事件检测提供一个通用实际的评估任务,以及全面的声音事件词汇的起点。 它包含了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人标记的 10 秒声音片段,该数据集涵盖人类和…

TED-LIUM 英语语音识别训练语料库

TED-LIUM 是来自 TED 讲座的语音识别训练语料库,它带有转录,采样频率为 16kHz 的音频片段,合计包含大约 118 个小时的演讲。 该数据集由缅因大学计算机科学实验室(LIUM)于 2012 年创建。 主要发布人:A. Rousseau, P. Deléglise,…

CHIME 语音数据集

CHiME 数据集来源于 CHiME 挑战的语音片段,主要用于语音识别。 CHiME 挑战是一套自动语音识别评估系统,其主要用于日常环境中的远程多麦克风语音识别。 该数据集包括小词汇 ASR 任务和静态扬声器在家庭环境中双耳录制的音频、移动扬声器和中等词汇 ASR 任务在家庭环境…

TIMIT 语音读取语料数据集

TIMIT 语音读取语料数据集是一套声学-音素连续语音语料库,其旨在为声学语音研究以及自动语音识别系统的开发与评估提供语音数据。 TIMIT 一共包含 6300 个句子,每段音频的语音采样频率为 16kHz,包含由八种主要美国英语方言组成的 630 个录音片段,每个方言都有 10…