2 个月前

WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库

Binbin Zhang; Hang Lv; Pengcheng Guo; Qijie Shao; Chao Yang; Lei Xie; Xin Xu; Hui Bu; Xiaoyu Chen; Chenchen Zeng; Di Wu; Zhendong Peng
WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库
摘要

本文介绍了WenetSpeech,这是一个多领域的普通话语料库,包含超过10000小时的高质量标注语音、2400多小时的弱标注语音以及约10000小时的未标注语音,总计22400多小时。我们从YouTube和播客中收集了这些数据,涵盖了多种说话风格、场景、领域、话题和噪声条件。对于YouTube数据,我们引入了一种基于光学字符识别(OCR)的方法来生成与其对应的视频字幕相关的音频/文本分割候选;而对于播客数据,则使用了一个高质量的自动语音识别(ASR)转录系统来生成音频/文本对候选。随后,我们提出了一种新颖的端到端标签错误检测方法,以进一步验证和筛选这些候选。此外,我们还提供了三个手动标注的高质量测试集,与WenetSpeech一起用于评估——Dev用于训练中的交叉验证,Test_Net从互联网收集用于匹配测试,Test_Meeting则记录自真实会议,用于更具挑战性的不匹配测试。我们为三个流行的语音识别工具包Kaldi、ESPnet和WeNet提供了基于WenetSpeech训练的基线系统,并在三个测试集上提供了识别结果作为基准。据我们所知,WenetSpeech是目前最大的带有转录的开源普通话语音语料库,这将有助于生产级语音识别的研究。

WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库 | 最新论文 | HyperAI超神经