Stable-audio-open-small:音频生成模型 Demo
一、教程简介

Stable-audio-open-small 是由 Stability AI 与 Arm 于 2025 年 5 月 13 日推出的音频生成 AI 模型。专注于高效创作高质量短音频内容。基于先进的扩散模型技术,支持用户通过文本提示快速生成音乐片段、音效及环境声等多样化音频(如鼓点循环、旋律片段或自然音景),适用于音乐制作、游戏开发、影视配乐等场景。相关论文成果为「Fast Text-to-Audio Generation with Adversarial Post-Training」。
本教程采用资源为单卡 A6000 。生成提示词仅支持英文。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面
若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 进入网页后,即可与模型展开对话
提示:参数设置不恰当可能生成噪声。使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。
使用步骤

参数说明:
- Seconds total: 生成音频的总时长。
- Steps: 示模型的迭代次数或推理过程中的步数, 代表模型用于生成结果的优化步数。更高的步数通常会生成更精细的结果,但可能增加计算时间。
- CFG Scale: 用于控制生成模型中条件输入对生成结果的影响程度, 越高越遵循文本描述。
Sampler params
- Seed: 随机种子,保持不变可重复生成相同的结果。
- CFG interval min: 设置条件引导在扩散过程的时间起始点。
- CFG interval max: 设置条件引导在扩散过程的时间终止点。
- CFG rescale amount: 通过动态调整条件强度防止数值溢出,提升高条件强度下的生成稳定性。
Output params
- File format: 选择输出文件格式。
- File naming: 选择输出文件命名方式。
- Spec Preview Every: 选择是否预览频谱图。
- Cut to seconds total: 是否裁剪到指定时长。
- Autoplay: 是否自动播放。
- Infinite Radio: 是否循环生成。
- Auto Download: 是否自动下载。
Init audio
- Init audio: 选择初始化音频文件,用于生成新的音频。
- Init noise level: 初始化噪声级别,用于控制生成音频的初始随机性。
四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
