HyperAI超神经

MiniMax-Speech:具有可学习说话人编码器的内在零样本文本到语音合成

Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, Junjie Yan, Kaiyue Yang, Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, Yongmao Zhang, Yuan Lu, Yucen He
发布日期: 5/14/2025
MiniMax-Speech:具有可学习说话人编码器的内在零样本文本到语音合成
摘要

我们介绍了MiniMax-Speech,这是一种基于自回归Transformer的高质量语音生成文本转语音(TTS)模型。该模型的关键创新在于其可学习的说话人编码器,该编码器可以从参考音频中提取音色特征而无需其转录。这使得MiniMax-Speech能够在零样本的情况下生成与参考音频音色一致的高度表现力语音,同时支持单样本语音克隆,并且与参考声音具有极高的相似度。此外,通过提出的Flow-VAE,合成音频的整体质量得到了提升。我们的模型支持32种语言,并在多个客观和主观评估指标上表现出色。值得注意的是,它在客观语音克隆指标(如词错误率和说话人相似度)上达到了最先进的(SOTA)结果,并在公开的TTS Arena排行榜上获得了第一名的位置。MiniMax-Speech的另一个关键优势在于其说话人编码器提供的鲁棒性和解耦表示,使得该模型无需修改基础架构即可扩展,从而支持多种应用,例如:通过LoRA实现任意语音情感控制;从文本描述直接合成音色特征以实现文本到语音(T2V)转换;以及通过使用额外数据微调音色特征来实现专业语音克隆(PVC)。我们鼓励读者访问 https://minimax-ai.github.io/tts_tech_report 以获取更多示例。