2 个月前

面向下一个十亿用户的文本转语音系统构建

Gokul Karthik Kumar; Praveen S V; Pratyush Kumar; Mitesh M. Khapra; Karthik Nandakumar
面向下一个十亿用户的文本转语音系统构建
摘要

基于深度学习的文本到语音(TTS)系统随着模型架构、训练方法和跨说话人及语言泛化的进步而迅速发展。然而,这些进展尚未在印度语言的语音合成中得到充分研究。鉴于印度语言的数量和多样性、相对较低的资源可用性以及神经TTS领域的多种未测试的进步,此类研究在计算上非常昂贵。本文中,我们评估了用于德拉维达语和印欧语系语言的声学模型、声码器、辅助损失函数、训练计划以及说话人和语言多样性方面的选择。基于此评估,我们确定了使用FastPitch和HiFi-GAN V1联合训练男性和女性说话人的单语模型表现最佳。利用这一设置,我们为13种语言训练并评估了TTS模型,并发现我们的模型在所有语言中的平均意见得分(Mean Opinion Scores, MOS)显著优于现有模型。我们将所有模型开源至Bhashini平台。

面向下一个十亿用户的文本转语音系统构建 | 最新论文 | HyperAI超神经