Free CPU 教程丨狂揽 8.8k Stars，tts 模型 Supertonic-3 参数规模仅约 99M，支持 31 种语言

在生成式 AI 持续向多模态方向演进的背景下，TTS 正在从「云端能力」逐渐转向「本地能力」。过去，高质量 TTS 系统往往依赖大型模型、云端推理和复杂部署流程，这虽然能够提供自然的语音效果，却也带来了延迟、成本与隐私方面的问题。尤其是在移动设备、浏览器、边缘硬件等场景中，如何以更低资源消耗实现实时、高质量、多语言语音生成，正在成为行业关注的新方向。

今年 5 月，Supertone 团队开源了轻量级多语言文本转语音模型 Supertonic-3，目前已在 GitHub 获得 8.8k stars 。该模型基于 ONNX Runtime 构建，支持完全本地运行，无需调用云 API，也不依赖 GPU，即可在 CPU 环境中完成实时语音合成。

与当前许多参数规模达到数十亿级的开源 TTS 系统相比，Supertonic-3 的一个显著特点是「小而完整」。整个模型仅约 9900 万参数，却支持 31 种语言、 10 种预设音色，并具备长文本分块、静音间隔控制以及表情标签等能力。例如，开发者可以通过 <laugh> 、<breath> 、<sigh> 等标签，为生成语音加入更自然的情绪与停顿效果，而无需额外参考音频或复杂提示工程。

官方表示，其推理速度足以在一秒内将整个网页转换为音频，同时直接输出 44.1kHz 、 16-bit 的高质量 WAV 文件，无需额外后处理即可播放。对于希望构建本地 AI 助手、离线阅读器、语音播报系统或多语言内容工具的开发者而言，这类「轻量化 + 多平台」的方案正在展现出越来越强的吸引力。

近日，HyperAI 官网（hyper.ai）的教程版块上线了「Supertonic-3：轻量级本地多语言语音合成系统」，已经完成环境部署，基于 Free CPU 即可免费体验高质量 TTS 模型。

在线运行：

https://go.hyper.ai/Mr31r