Command Palette
Search for a command to run...
Free CPU 教程丨狂揽 8.8k Stars,tts 模型 Supertonic-3 参数规模仅约 99M,支持 31 种语言

在生成式 AI 持续向多模态方向演进的背景下,TTS 正在从「云端能力」逐渐转向「本地能力」。过去,高质量 TTS 系统往往依赖大型模型、云端推理和复杂部署流程,这虽然能够提供自然的语音效果,却也带来了延迟、成本与隐私方面的问题。尤其是在移动设备、浏览器、边缘硬件等场景中,如何以更低资源消耗实现实时、高质量、多语言语音生成,正在成为行业关注的新方向。
今年 5 月,Supertone 团队开源了轻量级多语言文本转语音模型 Supertonic-3,目前已在 GitHub 获得 8.8k stars 。该模型基于 ONNX Runtime 构建,支持完全本地运行,无需调用云 API,也不依赖 GPU,即可在 CPU 环境中完成实时语音合成。
与当前许多参数规模达到数十亿级的开源 TTS 系统相比,Supertonic-3 的一个显著特点是「小而完整」。整个模型仅约 9900 万参数,却支持 31 种语言、 10 种预设音色,并具备长文本分块、静音间隔控制以及表情标签等能力。例如,开发者可以通过 <laugh> 、<breath> 、<sigh> 等标签,为生成语音加入更自然的情绪与停顿效果,而无需额外参考音频或复杂提示工程。
官方表示,其推理速度足以在一秒内将整个网页转换为音频,同时直接输出 44.1kHz 、 16-bit 的高质量 WAV 文件,无需额外后处理即可播放。对于希望构建本地 AI 助手、离线阅读器、语音播报系统或多语言内容工具的开发者而言,这类「轻量化 + 多平台」的方案正在展现出越来越强的吸引力。
近日,HyperAI 官网(hyper.ai)的教程版块上线了「Supertonic-3:轻量级本地多语言语音合成系统」,已经完成环境部署,基于 Free CPU 即可免费体验高质量 TTS 模型。
在线运行:

更多在线教程:

欢迎登录官网查看更多内容:
Demo 运行
1. 进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「Supertonic-3:轻量级本地多语言语音合成系统」,点击「运行此教程」。


2. 页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。
注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3. 选择「Free CPU」以及「PyTorch」镜像,点击「Continue job execution(继续执行)」。
HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 20 小时 RTX 5090 算力(原价 $7),资源永久有效。


4. 等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace 。

效果展示
1. 页面跳转后,点击左侧 README 文件,进入后点击上方 Run(运行)。


2. 待运行完成后,即可点击右侧 API 地址跳转至 demo 页面。









