ACE-Step: 음악 생성을 위한 기본 모델

1. 튜토리얼 소개

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.
ACE-Step-v1-3.5B는 인공지능 회사 StepFun과 디지털 음악 플랫폼 ACE Studio가 공동으로 개발했으며, 2025년 5월 7일에 오픈 소스로 공개되었습니다. 이 모델은 A100 GPU에서 단 20초 만에 최대 4분 분량의 음악을 합성할 수 있으며, 이는 LLM 기반 기준보다 15배 빠른 속도입니다. 또한 멜로디, 하모닉, 리듬 측면에서 뛰어난 음악적 일관성과 가사 정렬을 구현합니다. 더욱이 이 모델은 섬세한 음향적 디테일을 보존하여 음성 복제, 가사 편집, 리믹스, 트랙 생성과 같은 고급 제어 메커니즘을 구현합니다.
2. 핵심 기능

다양한 스타일과 장르
- 모든 주류 음악 스타일을 지원하며 짧은 태그/설명 텍스트/사용 시나리오 등 다양한 형태로 입력 가능
- 다양한 유형(예: 재즈 표준 색소폰 및 스윙 리듬)에 따라 악기 조합 및 스타일 특성을 자동으로 조정할 수 있습니다.
다국어 지원
- 19개 언어 입력 지원, 상위 10개 언어는 다음과 같습니다: 🇺🇸 영어, 🇨🇳 중국어, 🇷🇺 러시아어, 🇪🇸 스페인어, 🇯🇵 일본어, 🇩🇪 독일어, 🇫🇷 프랑스어, 🇵🇹 포르투갈어, 🇮🇹 이탈리아어, 🇰🇷 한국어
악기 표현
- 다양한 장르의 악기 생성을 지원하고, 악기의 음색 특성(피아노 페달 공명, 기타 슬라이드 노이즈 등)을 정확하게 복원할 수 있습니다.
- 복잡한 편곡으로 다중 트랙 음악을 생성하고 각 부분 간의 조화와 리듬적 통일성을 유지합니다.
- 악기 연주 기법(현악 비브라토, 금관악기 텅잉 등)에 자동으로 적응합니다.
보컬 표현력
- 다양한 노래 스타일 지원(대중창, 벨칸토, 오페라 등)
- 감정 표현의 강도를 조절하는 능력(예: 억제된 낮은 음의 노래 vs. 폭발적인 높은 음의 노래)
3. 작업 단계
1. 컨테이너를 시작하세요
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 사용 예
사용 지침
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.
이 프로젝트는 Text2Music 탭, Retake 탭, Repainting 탭, Edit 탭, Extend 탭 등 멀티태스킹 제작 패널을 제공합니다.
각 모듈의 기능은 다음과 같습니다.
Text2Music 탭
- 입력 필드
- 태그: 설명 태그, 음악 장르 또는 장면 설명을 쉼표로 구분하여 입력하세요.
- 가사: [verse], [chorus], [bridge]와 같은 구조 태그와 함께 가사를 입력하세요.
- 오디오 지속 시간: 생성된 오디오의 지속 시간을 설정합니다(-1은 무작위 생성을 의미함)
- 설정
- 기본 설정: 추론 단계 수, 안내 비율 및 시드 값 조정
- 고급 설정: 스케줄러 유형, CFG 유형, ERG 설정 및 기타 매개변수를 미세 조정합니다.
- 세대
- 입력된 내용을 기반으로 음악을 생성하려면 "생성" 버튼을 클릭하세요.


결과 생성

다시 찍기 탭
- 다른 시드 값으로 음악을 재생성하고 미세한 변형을 생성합니다.
- 새 버전이 원본과 얼마나 다른지 제어하기 위해 변형 매개변수를 조정합니다.

다시 칠하기 탭
- 특정 음악 구절을 선택적으로 재생성합니다.
- 재생성할 세그먼트의 시작 및 종료 시간을 지정합니다.
- 소스 오디오(text2music, last_repaint 또는 upload)를 선택하세요

편집 탭
- 탭이나 가사를 변경하여 기존 음악을 각색합니다.
- "only_lyrics" 모드(원래 멜로디 유지) 또는 "remix" 모드(멜로디 변경) 중에서 선택할 수 있습니다.
- 편집 매개변수를 조정하여 원곡의 보존 정도를 제어합니다.

탭 확장
- 기존 음악의 시작이나 끝에 음악을 추가합니다.
- 좌우측에 연장시간을 지정하세요
- 확장해야 할 소스 오디오를 선택하세요

4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
Github 사용자에게 감사드립니다 슈퍼양 이 튜토리얼의 배포. 이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}