HyperAI초신경

온라인 튜토리얼 | 19개 언어를 지원하고 15배 더 빠르게 생성됩니다! ACE-Step 음악 생성 모델이 출시되었습니다.

特色图像

현재의 음악 생성 모델은 생성 속도, 음악적 일관성, 제어 가능성 간의 본질적인 상충 관계에 직면해 있습니다. 예를 들어,LLM 기반 모델(예: Yue, SongGen)은 가사 정렬에 있어서는 우수한 성능을 보이지만 추론 속도가 느리고 구조적 아티팩트가 발생합니다.반면, 확산 모델(예: DiffRhythm)은 더 빠른 합성을 가능하게 하지만 종종 장거리 구조적 일관성이 부족합니다. 이에 인공지능 기업 StepFun과 디지털 음악 플랫폼 ACE Studio는 기본 음악 생성 모델 ACE-Step-v1-3.5B를 공동으로 출시했으며, 이는 2025년 5월 7일에 오픈 소스로 공개되었습니다.이 모델은 NVIDIA A100 GPU에서 단 20초 만에 최대 4분 분량의 음악을 합성할 수 있는데, 이는 LLM 기반 기준 방식보다 15배 빠릅니다.멜로디, 하모니, 리듬적 측면에서 뛰어난 음악적 일관성과 가사적 정렬을 달성했습니다.

ACE-Step은 기존 AI 음악 도구와 비교해 기존 방식의 주요 한계를 극복하고 전반적인 아키텍처 설계를 통해 최적의 성능을 달성합니다.다양한 스타일과 장르, 다국어 지원, 악기 표현력, 보컬 표현력 등 4가지 측면에서 뛰어난 장점을 가지고 있습니다.오픈 소스 버전은 이미 19개 언어 입력을 지원하고 뛰어난 음향 세부 정보도 그대로 유지합니다. 음성 복제, 가사 편집, 믹싱, 트랙 생성 등의 고급 제어 메커니즘을 지원합니다. 또한 모든 주류 음악 스타일과 다양한 보컬 스타일, 장르를 넘나드는 악기 연주도 지원합니다. 악기의 음색 특성을 정확하게 복원하고 복잡한 편곡을 통한 멀티트랙 음악을 생성할 수 있습니다.

ACE-Step-v1-3.5B를 사용하면 음악 스타일과 가사와 같은 매개변수만 입력하면 30초 분량의 음악 클립을 빠르게 생성할 수 있습니다. 와서 클릭해서 들어보세요~

* 태그 입력: 펑크, 팝, 소울, 록, 멜로딕, 기타, 드럼, 베이스, 키보드, 퍼커션, 105 BPM, 에너제틱, 업비트, 그루비, 생동감, 다이내믹

현재,HyperAI 공식 웹사이트의 "튜토리얼" 섹션에서 "ACE-Step: 음악 생성을 위한 기본 모델"이 출시되었습니다.아래 링크를 클릭하여 원클릭 배포 튜토리얼을 경험해보세요 ⬇️

튜토리얼 링크:https://go.hyper.ai/tTmib

데모 실행

1. hyper.ai 홈페이지에 접속한 후, "튜토리얼" 페이지를 선택하고, "ACE-Step: 음악 생성을 위한 기본 모델"을 선택한 후, "이 튜토리얼을 온라인으로 실행"을 클릭하세요.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090"과 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼은 4가지 청구 방법을 제공합니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간"을 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. 모델이 크기 때문에 WebUI 인터페이스를 표시하는 데 약 3분이 걸리며, 그렇지 않으면 "잘못된 게이트웨이"가 표시됩니다. API 주소 접근 기능을 이용하기 위해서는 이용자가 실명인증을 완료해야 합니다.

효과 시연

이 프로젝트는 Text2Music 탭, Retake 탭, Repainting 탭, Edit 탭, Extend 탭 등 멀티태스킹 제작 패널을 제공합니다.

각 모듈의 기능과 매개변수 조정은 다음과 같이 간략하게 소개됩니다.

Text2Music 탭

* 오디오 지속 시간: 생성된 오디오의 지속 시간을 설정합니다(-1은 무작위 생성을 의미함)

* 태그: 설명 태그, 음악 장르 또는 장면 설명을 쉼표로 구분하여 입력하세요.

* 가사: [verse], [chorus], [bridge]와 같은 구조 태그와 함께 가사를 입력하세요.

* 기본 설정: 추론 단계 수, 안내 비율 및 시드 값 조정

* 고급 설정: 스케줄러 유형, CFG 유형, ERG 설정 및 기타 매개변수를 미세 조정합니다.

* 입력된 내용을 기반으로 음악을 생성하려면 "생성" 버튼을 클릭하세요.

다시 찍기 탭

기능:다양한 시드 값으로 음악을 재생성하고 미세한 변형을 생성하며 변형 매개변수를 조정하여 새 버전이 원본과 얼마나 다른지 제어합니다.

* 분산: 분산을 채우세요

* 씨앗 다시 가져오기(기본값 없음): 난수 시드를 채웁니다.

* "다시 찍기" 버튼을 클릭하여 다시 생성하세요.

다시 칠하기 탭

기능:특정 음악 구절을 선택적으로 재생성합니다.

* 분산 : 분산

* 씨앗 다시 가져오기(기본값 없음): 무작위 씨앗

* 다시 그리기 시작 시간: 다시 생성될 문단의 시작 시간을 지정합니다.

* 다시 그리기 종료 시간: 다시 생성될 문단의 종료 시간을 지정합니다.

* 소스 다시 칠하기: 소스 오디오(text2music, last_repaint 또는 upload)를 선택하세요

* "다시 칠하기" 버튼을 클릭하여 재생성하세요.

편집 탭

기능:편집 매개변수를 조정하여 원곡의 보존 정도를 제어합니다.

* 태그 편집: 기존 음악을 적용하기 위해 태그를 수정합니다.

* 가사 편집: 기존 음악에 맞춰 가사를 수정합니다.

* 시드 편집(기본값 없음): 무작위 시드 편집

* 편집 유형: 편집 유형은 "only_lyrics" 모드(원래 멜로디 유지) 또는 "remix" 모드(멜로디 변경)를 선택할 수 있습니다.

* 다시 그리기 종료 시간: 다시 생성될 문단의 종료 시간을 지정합니다.

* edit_n_min: 최소 범위 편집

* edit_n_max: 최대 편집 범위

* 소스 편집: 리소스 편집

* 편집하려면 "편집" 버튼을 클릭하세요.

탭 확장

기능:기존 음악의 시작이나 끝에 음악을 추가합니다.

* 시드 편집(기본값 없음): 무작위 시드 확산

* 왼쪽 확장 길이: 왼쪽 확장 길이를 지정합니다.

* 오른쪽 확장 길이: 오른쪽 확장 길이를 지정합니다.

* 소스 확장: 확장해야 하는 소스 오디오를 선택하세요

* "확장" 버튼을 클릭하여 확장하세요.