一、教程简介

NeuTTS-Air 是 Neuphonic 公司于 2025 年 10 月发布的端到端语音合成模型 (TTS) 。基于 0.5B Qwen LLM 主干和 NeuCodec 音频编解码器，它在 on-device 部署和即时语音克隆上展现少样本学习能力。系统评估显示，NeuTTS Air 在开源模型中达到 SOTA 水平，尤其在超真实合成和实时推理基准上。它还能泛化到嵌入式代理和风格迁移等新场景，支持 3 秒音频克隆，并生成自然对话内容。后训练引入 GGML/ONNX 支持和水印机制，在 on-device TTS 和功耗优化评测中领先开源领域，部分场景媲美闭源模型。

本教程采用资源为 CPU，模型仅支持英文，合成一条语音约需半分钟以上的时间，如果想体验更快的处理速度，可以使用单卡 RTX 5090 克隆教程「NeuTTS-Air: 轻量高效语音克隆模型」。

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示代码正在后台执行，请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

使用步骤

输入音频长度最小为 3 秒，推荐为 3 至 15 秒 输出音频长度最大约为 30 秒

HyperAI

运行此教程在 Discord 上讨论

日期

5 个月前

标签

音频生成

许可证

Apache 2.0

GitHub

neuphonic/neutts-air

一、教程简介

本教程采用资源为 CPU，模型仅支持英文，合成一条语音约需半分钟以上的时间，如果想体验更快的处理速度，可以使用单卡 RTX 5090 克隆教程「NeuTTS-Air: 轻量高效语音克隆模型」。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示代码正在后台执行，请等待约 2-3 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

使用步骤

输入音频长度最小为 3 秒，推荐为 3 至 15 秒 输出音频长度最大约为 30 秒

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Command Palette

CPU 部署 NeuTTS-Air 语音克隆模型

一、教程简介

二、项目示例

三、运行步骤

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CPU 部署 NeuTTS-Air 语音克隆模型

一、教程简介

二、项目示例

三、运行步骤

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

CPU 部署 Llama-3.2-3B-Instruct-GGUF

CPU 部署 Gemma-3-1b-it-GGUF

CPU 部署 DeepSeek-R1-Distill-Qwen-1.5B-GGUF

CPU 部署 Qwen2.5-14B-Instruct-GGUF

CPU 部署 Phi-4-mini-instruct-GGUF

CPU 部署 DeepSeek-Coder-V2-Lite-Instruct-GGUF

CPU 部署 Qwen2.5-3B-Instruct-GGUF

CPU 部署 GLM-4-9B-chat-GGUF

CPU 部署 gpt-oss-20b-GGUF

CPU 部署 Qwen3.5-9B-GGUF

🦞 OpenClaw：使用 Free-CPU 调用 API 运行

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CPU 部署 NeuTTS-Air 语音克隆模型

一、教程简介

二、项目示例

三、运行步骤

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

CPU 部署 Llama-3.2-3B-Instruct-GGUF

CPU 部署 Gemma-3-1b-it-GGUF

CPU 部署 DeepSeek-R1-Distill-Qwen-1.5B-GGUF

CPU 部署 Qwen2.5-14B-Instruct-GGUF

CPU 部署 Phi-4-mini-instruct-GGUF

CPU 部署 DeepSeek-Coder-V2-Lite-Instruct-GGUF

CPU 部署 Qwen2.5-3B-Instruct-GGUF

CPU 部署 GLM-4-9B-chat-GGUF

CPU 部署 gpt-oss-20b-GGUF

CPU 部署 Qwen3.5-9B-GGUF

🦞 OpenClaw：使用 Free-CPU 调用 API 运行

用 AI 构建 AI

HyperAI Newsletters

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

CPU 部署 Llama-3.2-3B-Instruct-GGUF

CPU 部署 Gemma-3-1b-it-GGUF

CPU 部署 DeepSeek-R1-Distill-Qwen-1.5B-GGUF

CPU 部署 Qwen2.5-14B-Instruct-GGUF

CPU 部署 Phi-4-mini-instruct-GGUF

CPU 部署 DeepSeek-Coder-V2-Lite-Instruct-GGUF

CPU 部署 Qwen2.5-3B-Instruct-GGUF