17 天前

GigaSpeech:一个持续演进的多领域ASR语料库,包含10,000小时的转写音频

Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan
GigaSpeech:一个持续演进的多领域ASR语料库,包含10,000小时的转写音频
摘要

本文介绍了GigaSpeech,这是一个持续演进的多领域英文语音识别语料库,包含10,000小时高质量标注音频,适用于监督学习训练;总计40,000小时的音频数据则适用于半监督与无监督训练。约40,000小时的已转录音频最初来源于有声书、播客及YouTube视频,涵盖朗读与即兴表达两种口语风格,并覆盖艺术、科学、体育等多个主题。本文提出了一种新的强制对齐与语音切分流程,用于生成适用于语音识别训练的句子级音频片段,并过滤掉转录质量较低的片段。在系统训练方面,GigaSpeech提供了五个不同规模的训练子集:10小时、250小时、1000小时、2500小时和10,000小时。对于10,000小时的超大规模(XL)训练子集,在数据筛选与验证阶段将词错误率(Word Error Rate, WER)上限控制在4%以内;而对于其他较小规模的训练子集,则将WER上限严格控制在0%。此外,开发集(DEV)与测试集(TEST)经过专业人工转录人员的重新处理,以确保转录质量达到高水平。本文还为多种主流语音识别工具包(包括Athena、ESPnet、Kaldi和Pika)提供了基线系统。

GigaSpeech:一个持续演进的多领域ASR语料库,包含10,000小时的转写音频 | 最新论文 | HyperAI超神经