Command Palette

Search for a command to run...

1 个月前

IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破

摘要

现有的自回归大规模文语转换(TTS)模型在语音自然度方面具有显著优势,但其逐标记生成的机制使得对合成语音时长的精确控制变得困难。这一问题在需要严格音视频同步的应用场景中(如视频配音)尤为突出。本文提出了一种新型、通用且兼容自回归模型的语音时长控制方法——IndexTTS2。该方法支持两种生成模式:其一,通过显式指定生成标记的数量,实现对语音时长的精确控制;其二,在不指定标记数量的情况下,以自回归方式自由生成语音,同时忠实还原输入提示中的韵律特征。此外,IndexTTS2实现了情感表达与说话人身份的解耦,从而支持对音色与情感的独立控制。在零样本设置下,模型能够准确重构目标音色(来自音色提示),同时完美还原指定的情感语调(来自风格提示)。为提升高度情感化表达下的语音清晰度,本文引入GPT隐变量表示,并设计了一种新颖的三阶段训练范式,有效增强了生成语音的稳定性。为进一步降低情感控制的使用门槛,本文基于文本描述,通过微调Qwen3构建了一种软指令机制,可有效引导生成具有期望情感倾向的语音。最终,在多个数据集上的实验结果表明,IndexTTS2在词错误率、说话人相似度和情感保真度等方面均优于当前最先进的零样本TTS模型。音频样例可访问:https://this-url.com

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供