一、教程简介

Chatterbox 的核心功能之一是零样本语音克隆，仅需 5 秒的参考音频，即可生成高度逼真的个性化语音，无需复杂的训练过程。此外，它还支持情感夸张控制，用户可以调节语音的情绪强度、语速和语调，使语音更具表现力。 Chatterbox 的超低延迟实时合成能力，延迟低至 200 毫秒以下，使其适用于交互式应用，如虚拟助手和实时配音。为了确保内容的安全性和可追溯性，Chatterbox 生成的音频中嵌入了 Resemble AI 的 Perth 神经水印技术，防止滥用。

主要创新如下：

情感夸张控制：通过调节参数（如夸张度 = 0.7 + cfg = 0.3）实现从平淡到戏剧化的语音风格。
实时合成能力：推理延迟 < 200 ms，适用于实时交互场景

该教程算力资源采用单卡 RTX 4090 。该模型提示词仅支持英文。

二、运行步骤

1. 启动容器

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

2. 使用步骤

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

1. Text Generation

具体参数：

Text to synthesize：输入要转换为语音的文本内容。最大长度 300 个字符（过长的文本会被自动截断）。
Reference Audio File（Optional）：提供参考音频文件，让系统模仿说话人的声音风格、语调和节奏。
Exaggeration（Neutral = 0.5）：控制情感表达和语调变化的夸张程度。
CFG/Pace：控制语音的节奏和速度。
Random seed（0 for random）：设置随机种子。
Temperature：控制语音表达的随机性和多样性。

结果

三、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

436.23 MB

许可证

MIT

GitHub

resemble-ai/chatterbox

一、教程简介

主要创新如下：

情感夸张控制：通过调节参数（如夸张度 = 0.7 + cfg = 0.3）实现从平淡到戏剧化的语音风格。
实时合成能力：推理延迟 < 200 ms，适用于实时交互场景

该教程算力资源采用单卡 RTX 4090 。该模型提示词仅支持英文。