HyperAI超神经

Step-Audio-TTS-3B 产品级方言语音生成模型

一、教程简介

Step-Audio 是由 Stepfun-AI 团队于 2025 年开源的业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言生成(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持 RAP 和哼唱等。

本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。

支持功能:

  • 普通语音合成

预设官网默认语音角色 Tingting 和新增哪吒音色,支持多语言生成、情感、方言等设置

  • 音乐合成

预设官网默认语音角色 Tingting 和新增哪吒音色,支持 RAP 、哼唱

  • 语音克隆

支持用户上传自定义音频,按照要求输入音频的文本内容和定义角色名称

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面(若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1 分钟后重试。)

2. 进入网页后,即可进行多功能语音合成

1. 普通语音合成

普通语音合成

2. RAP /哼唱模式

RAP /哼唱模式

3. 语音克隆

语音克隆

tips:在要生成的文本前 (RAP) 或者(哼唱)即可快速生成 RAP 或者哼唱的声音克隆效果

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓