Step-Audio-TTS-3B 产品级方言语音生成模型


一、教程简介
本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。
支持功能:
- 普通语音合成
预设官网默认语音角色 Tingting 和新增哪吒音色,支持多语言生成、情感、方言等设置
- 音乐合成
预设官网默认语音角色 Tingting 和新增哪吒音色,支持 RAP 、哼唱
- 语音克隆
支持用户上传自定义音频,按照要求输入音频的文本内容和定义角色名称
二、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面(若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1 分钟后重试。)

2. 进入网页后,即可进行多功能语音合成
1. 普通语音合成

普通语音合成
2. RAP /哼唱模式

RAP /哼唱模式
3. 语音克隆

语音克隆
tips:在要生成的文本前 (RAP) 或者(哼唱)即可快速生成 RAP 或者哼唱的声音克隆效果
交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓