HyperAI

运行此教程在 Discord 上讨论

日期

1 年前

标签

音频分类

GitHub

stepfun-ai/Step-Audio

GPU 算力空投

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

立即兑换

一、教程简介

Step-Audio 是由 Stepfun-AI 团队于 2025 年开源的业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言生成（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持 RAP 和哼唱等。

本教程以 Step-Audio-TTS-3B 作为演示，算力资源采用「单卡 RTX4090」。

支持功能：

普通语音合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持多语言生成、情感、方言等设置

音乐合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持 RAP 、哼唱

语音克隆

支持用户上传自定义音频，按照要求输入音频的文本内容和定义角色名称

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

普通语音合成

2. RAP /哼唱模式

RAP /哼唱模式

3. 语音克隆

语音克隆

tips：在要生成的文本前 (RAP) 或者（哼唱）即可快速生成 RAP 或者哼唱的声音克隆效果

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

1 年前

标签

音频分类

GitHub

stepfun-ai/Step-Audio

GPU 算力空投

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

立即兑换

一、教程简介

本教程以 Step-Audio-TTS-3B 作为演示，算力资源采用「单卡 RTX4090」。

支持功能：

普通语音合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持多语言生成、情感、方言等设置

音乐合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持 RAP 、哼唱

语音克隆

支持用户上传自定义音频，按照要求输入音频的文本内容和定义角色名称

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

普通语音合成

2. RAP /哼唱模式

RAP /哼唱模式

3. 语音克隆

语音克隆

tips：在要生成的文本前 (RAP) 或者（哼唱）即可快速生成 RAP 或者哼唱的声音克隆效果

交流探讨

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

1 年前

标签

音频分类

GitHub

stepfun-ai/Step-Audio

GPU 算力空投

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

立即兑换

一、教程简介

本教程以 Step-Audio-TTS-3B 作为演示，算力资源采用「单卡 RTX4090」。

支持功能：

普通语音合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持多语言生成、情感、方言等设置

音乐合成

预设官网默认语音角色 Tingting 和新增哪吒音色，支持 RAP 、哼唱

语音克隆

支持用户上传自定义音频，按照要求输入音频的文本内容和定义角色名称

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

普通语音合成

2. RAP /哼唱模式

RAP /哼唱模式

3. 语音克隆

语音克隆

tips：在要生成的文本前 (RAP) 或者（哼唱）即可快速生成 RAP 或者哼唱的声音克隆效果

交流探讨

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Step-Audio-TTS-3B 产品级方言语音生成模型

GPU 算力空投

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

2. RAP /哼唱模式

3. 语音克隆

交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step-Audio-TTS-3B 产品级方言语音生成模型

GPU 算力空投

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

2. RAP /哼唱模式

3. 语音克隆

交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Step-Audio-TTS-3B 产品级方言语音生成模型

GPU 算力空投

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面（若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1 分钟后重试。）

2. 进入网页后，即可进行多功能语音合成

1. 普通语音合成

2. RAP /哼唱模式

3. 语音克隆

交流探讨

用 AI 构建 AI

HyperAI Newsletters