一、教程简介

文本转语音合成：输入文本即可生成自然流畅的语音输出，支持自定义语速和语调。

语音克隆：用户提供短至几秒的参考音频及对应文本，即可创建个性化音色，适用于定制化语音助手、有声读物等场景。

本教程使用的模型为 Oute AI 于 2025 年 3 月最新发布的 Llama-OuteTTS-1.0-1B 模型。参数从 3.5 亿提升至 10 亿，显著增强语音表现力与稳定性。同时支持 20 种语言的本地化合成，跨语言克隆能力进一步优化。

该教程算力资源采用单卡 RTX 4090 。本教程主要提供 Default Speaker 和 Voice Cloning 两个使用示例，本教程仅支持英语。

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

具体参数：

Text：输入待生成语音的文本文字。

Temperature：控制输出随机性的缩放因子。

Repetition Penalty：抑制重复生成的惩罚系数。

Top-k：限制每步生成的候选词数量。

Top-p：动态候选词选择（核采样）。

Minimum Probability（min-p）：设置候选词的最低概率阈值。

1. Default Speaker

2. Voice Cloning

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

343.32 MB

标签

音频生成

许可证

Apache 2.0

GitHub

edwko/OuteTTS

论文 URL

outeai.com

一、教程简介

文本转语音合成：输入文本即可生成自然流畅的语音输出，支持自定义语速和语调。
语音克隆：用户提供短至几秒的参考音频及对应文本，即可创建个性化音色，适用于定制化语音助手、有声读物等场景。

该教程算力资源采用单卡 RTX 4090 。本教程主要提供 Default Speaker 和 Voice Cloning 两个使用示例，本教程仅支持英语。

二、效果展示

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

具体参数：

Text：输入待生成语音的文本文字。
Temperature：控制输出随机性的缩放因子。
Repetition Penalty：抑制重复生成的惩罚系数。
Top-k：限制每步生成的候选词数量。
Top-p：动态候选词选择（核采样）。
Minimum Probability（min-p）：设置候选词的最低概率阈值。

1. Default Speaker

2. Voice Cloning

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

343.32 MB

标签

音频生成

许可证

Apache 2.0

GitHub

edwko/OuteTTS

论文 URL

outeai.com

一、教程简介

文本转语音合成：输入文本即可生成自然流畅的语音输出，支持自定义语速和语调。
语音克隆：用户提供短至几秒的参考音频及对应文本，即可创建个性化音色，适用于定制化语音助手、有声读物等场景。

该教程算力资源采用单卡 RTX 4090 。本教程主要提供 Default Speaker 和 Voice Cloning 两个使用示例，本教程仅支持英语。

二、效果展示