12 天前
WenetSpeech-Yue:一个具有多维度标注的大规模粤语语音语料库
Longhao Li, Zhao Guo, Hongjie Chen, Yuhang Dai, Ziyu Zhang, et al

摘要
语音理解与生成技术的发展,因大规模高质量语音数据集的出现而得到显著加速。在这些任务中,自动语音识别(ASR)与语音合成(TTS)被视为最为成熟且基础性的工作。然而,对于全球约有8490万母语使用者的粤语(粤语)而言,受限于标注资源的匮乏,相关技术进展受到严重制约,导致ASR与TTS性能始终不尽如人意。为应对这一挑战,我们提出WenetSpeech-Pipe——一个面向语音理解与生成任务的、支持多维度标注的大规模语音语料库构建集成化流程。该流程包含六个模块:音频采集、说话人属性标注、语音质量标注、自动语音识别、文本后处理以及识别结果投票,能够实现丰富且高质量的多维度标注。基于此流程,我们发布了WenetSpeech-Yue,这是首个面向ASR与TTS任务、具备多维度标注的大规模粤语语音语料库,涵盖10个领域,总时长达21,800小时,包含ASR转写文本、文本置信度、说话人身份、年龄、性别、语音质量评分等多种标注信息。同时,我们还发布了WSYue-eval,一个全面的粤语基准测试集,包含两个组成部分:WSYue-ASR-eval,一个经人工标注的测试集,用于评估模型在短句与长句、代码切换以及多样声学条件下的ASR性能;WSYue-TTS-eval,包含基础集与覆盖集,分别用于标准测试与泛化能力评估。实验结果表明,基于WenetSpeech-Yue训练的模型,在性能上可与当前最先进的(SOTA)粤语ASR与TTS系统(包括商业系统及基于大语言模型的系统)相媲美,充分体现了本数据集与构建流程的重要价值。