ESD 情感语音数据集

ESD 全称 Emotional Speech Database,是一个用于语音转换研究的情感语音数据集。数据集由 10 个以英语为母语和 10 个以汉语为母语的人说的 350 个平行话语组成,涵盖 5 个情感类别(中性、快乐、愤怒、悲伤和惊讶)。在受控声学环境中记录了超过 29…

CHiME-5 语音识别数据集

CHiME-5 是一个关于自动语音识别处理技术的数据集。数据集来自第五届 CHiME 挑战,包括远程多麦克风会话在真实家庭环境中的任务。语音材料提取自晚宴场景,数据集获取了自然对话语音数据,并由 6 个 Kinect 麦克风阵列和 4 个双耳麦克风对录制。 数据集包含单阵列轨道与…

Casual Conversations 语音识别数据集

Casual Conversations 旨在帮助研究人员评估其计算机视觉和音频模型在各种年龄、性别、明显的肤色和周围光线条件下的准确性,以消除 AI 偏见。 该数据集包含了 3,011 名参与者的 45,000 多个视频,均匀分布了不同的性别、年龄段和肤色。 Facebook …

CAS-VSR-W1k 唇语识别数据集

CAS-VSR-W1k 原名为 LRW-1000,是目前公开的最大的普通话词汇级唇语数据集。该数据集包含 1,000 个词类,包括来自 2,000 多位发言者的 700,000 个样本。该数据集包含超过 1,000,000 个汉字实例。 每个类别对应于由一个或几个汉字组成的普通话…

VoxCeleb1 声纹识别数据集

这是一个大规模且与文本无关的声纹识别数据集,包含来自 YouTube 视频中 1,251 位名人的 10 万条语音。 示例数据: Verification split: devtest# of speakers1,21140# of videos21,819677# of utt…

CCMT 2019-BSTC 语音翻译语料库

BSTC 全称 Baidu Speech Translation Corpus,是一个大型自动同声传译数据集, 用于自动同声传译系统的构建。 该语料库分为训练集、开发集和测试集 3 个子集,每个子集包括: -声音信号文件,命名为 baidu_XX.wav -描述文件,包括每个声音…

VoxCeleb2 语音识别数据集

VoxCeleb2 是一个源自开源媒体的大规模说话人 (Speaker) 识别数据集,由超过 6 千名说话者的一百万条语料组成。由于该数据集是在自然场景中收集的,因此语音片段中不乏笑声、交谈声、频道效果、音乐等干扰。 VoxCeleb2 中的语料是多语言的,说话者来自 145 个…

LibriSpeech ASR Corpus

LibriSpeech ASR corpus 语料库是由 Vassil Panayotov 在 Daniel Povey 的协助下制作,其中包括约 1000 小时 16kHz 阅读英语演讲内容,以及 1000 小时的英文发音和对应文字。 LibriSpeech ASR corpu…

TIMIT 方言录音数据集

TIMIT 数据集由 8 种主要美国英语方言共 630 个录音片段组成,其中每个方言都有 10 个语音丰富的句子。 TIMIT 语料库包括时间对齐的正交,语音和单词转录以及每个话语的 16kHz 语音波形文件。 该数据集由麻省理工学院、SRI 国际和德州仪器公司于 1993 年发…

Broadcast News 大型文本数据集

Broadcast News 是用于下一个单词预测的大型文本数据集,其中包括 1996 年的广播新闻语音语料库包含来自 ABC,CNN 和 CSPAN 电视网以及 NPR 和 PRI 无线电网络的 104 小时广播,并附有相应的成绩单。 该系列是为 DARPA「HUB4」项目提供…