Chatterbox TTS:语音合成 Demo
一、教程简介

Chatterbox 是由 Resemble AI 于 2025 年 5 月 28 日发布的开源文本转语音(TTS)模型,专为提供高性能、灵活的语音合成解决方案而设计。该模型是首个支持情感夸张控制的开源 TTS 模型,基于 0.5 亿参数的 LLaMA 架构,使用超过 50 万小时的精选音频数据进行训练,支持多语言和多音色生成,性能超越了 ElevenLabs 等闭源系统。
Chatterbox 的核心功能之一是零样本语音克隆,仅需 5 秒的参考音频,即可生成高度逼真的个性化语音,无需复杂的训练过程。此外,它还支持情感夸张控制,用户可以调节语音的情绪强度、语速和语调,使语音更具表现力。 Chatterbox 的超低延迟实时合成能力,延迟低至 200 毫秒以下,使其适用于交互式应用,如虚拟助手和实时配音。为了确保内容的安全性和可追溯性,Chatterbox 生成的音频中嵌入了 Resemble AI 的 Perth 神经水印技术,防止滥用。
主要创新如下:
- 情感夸张控制:通过调节参数(如夸张度 = 0.7 + cfg = 0.3)实现从平淡到戏剧化的语音风格。
- 实时合成能力:推理延迟 < 200 ms,适用于实时交互场景
该教程算力资源采用单卡 RTX 4090 。该模型提示词仅支持英文。
二、运行步骤
1. 启动容器
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

2. 使用步骤
使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

1. Text Generation
具体参数:
- Text to synthesize:输入要转换为语音的文本内容。最大长度 300 个字符(过长的文本会被自动截断)。
- Reference Audio File(Optional):提供参考音频文件,让系统模仿说话人的声音风格、语调和节奏。
- Exaggeration(Neutral = 0.5):控制情感表达和语调变化的夸张程度。
- CFG/Pace:控制语音的节奏和速度。
- Random seed(0 for random):设置随机种子。
- Temperature:控制语音表达的随机性和多样性。
结果
三、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
