2 天前
HiFiTTS-2:一个大规模高带宽语音数据集
Ryan Langman, Xuesong Yang, Paarth Neekhara, Shehzeen Hussain, et al

摘要
本文介绍了HiFiTTS-2,一个专为高带宽语音合成设计的大规模语音数据集。该数据集源自LibriVox有声书资源,包含约36.7小时的英语语音数据(用于22.05 kHz训练),以及约31.7小时的语音数据(用于44.1 kHz训练)。我们详细阐述了数据处理流程,包括带宽估计、语音片段分割、文本预处理以及多说话人检测。该数据集配套提供了由我们处理流程生成的详尽语句与有声书元数据,使研究者能够通过数据质量筛选机制,将数据集适配至多种应用场景。实验结果表明,所提出的数据处理流程及其生成的数据集能够有效支持在高带宽条件下训练高质量的零样本语音合成(Text-to-Speech, TTS)模型。