HyperAI超神经

ACE-Step:音乐生成基础模型

ACE-Step框架示意图

一、教程简介

GitHub Stars

该教程算力资源采用单卡 RTX 4090 。

ACE-Step-v1-3.5B 是由人工智能公司阶跃星辰(StepFun)与数字音乐平台 ACE Studio 联合研发并于 2025 年 5 月 7 日开源。模型在 A100 GPU 上只需 20 秒即可合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标方面实现了卓越的音乐连贯性和歌词对齐。此外,该模型保留了精细的声学细节,支持高级控制机制,例如语音克隆、歌词编辑、混音和音轨生成。

二、核心功能

ACE-Step框架示意图

多元风格流派

  • 支持所有主流音乐风格,可通过短标签/描述文本/使用场景等多种形式输入需求
  • 能根据不同类型自动适配乐器组合与风格特征(如爵士乐标配萨克斯风与摇摆节奏)

多语言支持

  • 支持 19 种语言输入,性能最优的 10 种语言包括:🇺🇸 英语、🇨🇳 中文、🇷🇺 俄语、🇪🇸 西班牙语、🇯🇵 日语、🇩🇪 德语、🇫🇷 法语、🇵🇹 葡萄牙语、🇮🇹 意大利语、🇰🇷 韩语

器乐表现力

  • 支持跨流派器乐生成,能精准还原乐器音色特征(如钢琴的踏板共鸣、吉他的滑弦噪音)
  • 可生成包含复杂编曲的多轨音乐,保持声部间的和谐度与律动统一性
  • 自动适配乐器演奏技法(如弦乐的颤音、铜管的吐音)

人声表现力

  • 支持多种演唱风格(流行唱法、美声、戏腔等)
  • 可控制情感表达强度(如压抑的低声吟唱 vs 爆发式高音)

三、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 使用示例

使用指南

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

该项目提供多任务创作面板:Text2Music Tab 、 Retake Tab 、 Repainting Tab 、 Edit Tab 和 Extend Tab 。

各模块功能如下:

Text2Music Tab

  • Input Fields
    • Tags:输入描述性标签、音乐流派或场景描述,用逗号分隔
    • Lyrics:输入带有结构标签的歌词,如 [verse] 、 [chorus] 、 [bridge]
    • Audio Duration:设置生成音频的时长(-1 表示随机生成)
  • Settings
    • Basic Settings:调整推理步数、指导比例和种子值
    • Advanced Settings:微调调度器类型、 CFG 类型、 ERG 设置等参数
  • Generation
    • 点击「Generate」按钮,根据输入内容创作音乐

生成结果


Retake Tab

  • 通过不同种子值重新生成音乐并产生细微变化
  • 调整变化参数以控制新版本与原版的差异程度

Repainting Tab

  • 选择性重新生成音乐的特定段落
  • 指定需要重新生成段落的开始和结束时间
  • 选择源音频(text2music 、 last_repaint 或 upload)

Edit Tab

  • 通过修改标签或歌词来改编现有音乐
  • 可选择「only_lyrics」模式(保留原旋律)或「remix」模式(改变旋律)
  • 通过调整编辑参数控制对原曲的保留程度

Extend Tab

  • 在现有音乐的开头或结尾添加音乐片段
  • 指定左右两侧的扩展时长
  • 选择需要扩展的源音频

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 SuperYang  对本教程的部署。本项目引用信息如下:

@misc{gong2025acestep,
  title={ACE-Step: A Step Towards Music Generation Foundation Model},
  author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo}, 
  howpublished={\url{https://github.com/ace-step/ACE-Step}},
  year={2025},
  note={GitHub repository}
}