Command Palette

Search for a command to run...

IndexTTS-2:突破自回归 TTS 时长与情感控制瓶颈

一、教程简介

Build

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。 IndexTTS-2 实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。相关论文成果为「IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech」。

该教程算力资源采用单卡 RTX 4090 。

二、效果展示

Same as the voice reference

Use emotion reference audio

Use emotion vectors

Use text description to control emotion

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

1. Same as the voice reference

具体参数:

  • 高级参数设置:
    • do_sample:是否进行采样。
    • temperature:控制采样时概率分布的平滑程度。
    • top_p:核采样,。
    • top_k:在每一步生成时,只考虑概率最高的 K 个 token 。
    • num_beams:束搜索宽度。
    • repetition_penalty:重复惩罚,降低模型重复生成相同 token 的概率。
    • length_penalty:长度惩罚,鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。
    • max_mel_tokens:生成 Token 最大数量。

2. Use emotion reference audio

3. Use emotion vectors

情感控制参数:

  • Happy 、 Disgusted 、 Angry 、 Melancholic 、 Sad 、 Surprised 、 Afraid 、 Calm:分别对应 8 个基本情感维度。每个滑块的值(通常在 0.0 到 1.0 之间)表示希望在最终语音中体现该情感的强度。

4. Use text description to control emotion

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
IndexTTS-2:突破自回归 TTS 时长与情感控制瓶颈 | 教程 | HyperAI超神经