Step-Audio-TTS-3B 产品级方言语音生成模型

一、教程简介

本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。

支持功能:

  • 普通语音合成

预设官网默认语音角色 Tingting 和新增哪吒音色,支持多语言生成、情感、方言等设置

  • 音乐合成

预设官网默认语音角色 Tingting 和新增哪吒音色,支持 RAP 、哼唱

  • 语音克隆

支持用户上传自定义音频,按照要求输入音频的文本内容和定义角色名称

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面(若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1 分钟后重试。)

2. 进入网页后,即可进行多功能语音合成

1. 普通语音合成

普通语音合成

2. RAP /哼唱模式

RAP /哼唱模式

3. 语音克隆

语音克隆

tips:在要生成的文本前 (RAP) 或者(哼唱)即可快速生成 RAP 或者哼唱的声音克隆效果

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓ 

Step-Audio-TTS-3B 产品级方言语音生成模型 | 教程 | HyperAI超神经