HyperAI超神经

摘要

基于深度学习的文本到语音（TTS）系统随着模型架构、训练方法和跨说话人及语言泛化的进步而迅速发展。然而，这些进展尚未在印度语言的语音合成中得到充分研究。鉴于印度语言的数量和多样性、相对较低的资源可用性以及神经TTS领域的多种未测试的进步，此类研究在计算上非常昂贵。本文中，我们评估了用于德拉维达语和印欧语系语言的声学模型、声码器、辅助损失函数、训练计划以及说话人和语言多样性方面的选择。基于此评估，我们确定了使用FastPitch和HiFi-GAN V1联合训练男性和女性说话人的单语模型表现最佳。利用这一设置，我们为13种语言训练并评估了TTS模型，并发现我们的模型在所有语言中的平均意见得分（Mean Opinion Scores, MOS）显著优于现有模型。我们将所有模型开源至Bhashini平台。

摘要

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向下一个十亿用户的文本转语音系统构建

Gokul Karthik Kumar*†1,3,4 Praveen S V *1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向下一个十亿用户的文本转语音系统构建

Gokul Karthik Kumar*†1,3,4 Praveen S V *1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

面向下一个十亿用户的文本转语音系统构建

Gokul Karthik Kumar*†1,3,4 Praveen S V *1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

摘要

用 AI 构建 AI

HyperAI Newsletters

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

Gokul Karthik Kumar†1,3,4 Praveen S V 1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3