HyperAI超神经

OuteTTS:语音生成引擎

一、教程简介

Build

OuteTTS 是由 Oute AI 团队于 2024 年 11 月初发布的开源文本到语音(TTS)合成项目,其核心创新在于采用纯语言建模方法生成高质量语音,无需依赖传统 TTS 系统中的复杂适配器或外部模块。主要功能包括:

  • 文本转语音合成:输入文本即可生成自然流畅的语音输出,支持自定义语速和语调。
  • 语音克隆:用户提供短至几秒的参考音频及对应文本,即可创建个性化音色,适用于定制化语音助手、有声读物等场景。

本教程使用的模型为 Oute AI 于 2025 年 3 月最新发布的 Llama-OuteTTS-1.0-1B 模型。参数从 3.5 亿提升至 10 亿,显著增强语音表现力与稳定性。同时支持 20 种语言的本地化合成,跨语言克隆能力进一步优化。

该教程算力资源采用单卡 RTX 4090 。本教程主要提供 Default Speaker 和 Voice Cloning 两个使用示例,本教程仅支持英语。

二、效果展示

三、运行步骤

1. 启动容器

2. 使用步骤

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

具体参数:

  • Text:输入待生成语音的文本文字。
  • Temperature:控制输出随机性的缩放因子。
  • Repetition Penalty:抑制重复生成的惩罚系数。
  • Top-k:限制每步生成的候选词数量。
  • Top-p:动态候选词选择(核采样)。
  • Minimum Probability(min-p):设置候选词的最低概率阈值。

1. Default Speaker

2. Voice Cloning

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓