HyperAI超神经
17 days ago

优化多语言文本转语音技术以包含口音和情感

Pawar, Pranav ; Dwivedi, Akshansh ; Boricha, Jenish ; Gohil, Himanshu ; Dubey, Aditya
优化多语言文本转语音技术以包含口音和情感
摘要

最先进的文本到语音(TTS)系统在单语环境中实现了高度的自然度,但在当前框架中,由于文化差异的存在,合成具有正确多语言口音(尤其是印度语言)和情境相关情感的语音仍然面临挑战。本文介绍了一种新的TTS架构,该架构集成了口音并保留了转写功能,同时采用了多尺度情感建模方法,特别针对印地语和印度英语口音进行了调优。我们的方法扩展了Parler-TTS模型,通过集成特定语言的音素对齐混合编码器-解码器架构、基于本地说话者语料库训练的文化敏感情感嵌入层以及结合动态口音代码切换和残差向量量化来实现这一目标。定量测试表明,该系统的口音准确性提高了23.7%(单词错误率从15.4%降至11.8%),并且本地听众的情感识别准确率达到85.3%,超过了METTS和VECL-TTS基线系统。该系统的创新之处在于它能够在实时生成过程中混入口音代码——例如生成“Namaste, 让我们谈谈<印地语短语>”这样的陈述时,可以在不间断的情况下进行口音转换,同时保持情感的一致性。通过对200名用户的主观评估显示,该系统在文化正确性方面的平均意见得分(MOS)为4.2/5,显著优于现有的多语言系统(p<0.01)。本研究通过展示可扩展的口音-情感解耦技术,使得跨语言合成更加可行,并在南亚教育技术和辅助软件中具有直接应用前景。