HyperAI초신경

Stable-audio-open-small: 오디오 생성 모델 데모

1. 튜토리얼 소개

짓다

Stable-audio-open-small은 Stability AI와 Arm이 2025년 5월 13일에 출시한 오디오 생성 AI 모델입니다. 고품질 단편 오디오 콘텐츠를 효율적으로 제작하는 데 중점을 두고 있습니다. 고급 확산 모델 기술을 기반으로 사용자가 텍스트 프롬프트를 통해 음악 클립, 음향 효과, 주변 소리 및 기타 다양한 오디오(예: 드럼 루프, 멜로디 클립 또는 자연스러운 사운드스케이프)를 빠르게 생성할 수 있도록 지원합니다. 이는 음악 제작, 게임 개발, 영화 및 TV 사운드트랙 등 다양한 시나리오에 적합합니다. 관련 논문 결과는 다음과 같습니다.적대적 사후 학습을 통한 빠른 텍스트-오디오 생성".

이 튜토리얼은 단일 카드 A6000 리소스를 사용합니다. 생성된 프롬프트는 영어만 지원합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.

팁: 매개변수 설정이 잘못되면 잡음이 발생할 수 있습니다. Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생 전에 다운로드해야 합니다.

사용 방법

매개변수 설명:

  • 총 초: 생성된 오디오의 총 길이입니다.
  • 단계: 모델 추론 과정에서 반복 횟수 또는 단계 수는 모델이 결과를 생성하는 데 걸리는 최적화 단계 수를 나타냅니다. 단계 수가 많을수록 일반적으로 더 정교한 결과가 생성되지만 계산 시간이 증가할 수 있습니다.
  • CFG 척도: 생성 모델에서 조건부 입력이 생성된 결과에 미치는 영향을 제어하는 데 사용됩니다. 값이 높을수록 텍스트 설명과 더 잘 일치합니다.

샘플러 매개변수

  • 씨앗: 일정하게 유지되는 난수 시드는 반복적으로 동일한 결과를 생성할 수 있습니다.
  • CFG 간격 최소: 확산 과정의 시간 시작 지점에 조건 가이드를 설정합니다.
  • CFG 간격 최대값: 확산 과정의 시간 종료 지점에 조건 가이드를 설정합니다.
  • CFG 재조정 양: 조건 강도를 동적으로 조절함으로써 수치적 오버플로를 방지하고 높은 조건 강도에서의 생성 안정성을 향상시킵니다.

출력 매개변수

  • 파일 형식: 출력 파일 형식을 선택하세요.
  • 파일 이름: 출력 파일 명명 방법을 선택합니다.
  • 사양 미리보기: 스펙트럼 그래프를 미리 볼지 여부를 선택합니다.
  • 총 초로 줄임: 지정된 기간까지 트리밍할지 여부.
  • 자동재생: 자동으로 재생할지 여부.
  • 무한 라디오: 루프로 생성할지 여부.
  • 자동 다운로드: 자동으로 다운로드할지 여부.

오디오 초기화

  • 오디오 초기화: 새로운 오디오를 생성하려면 초기 오디오 파일을 선택하세요.
  • 초기 소음 수준: 생성된 오디오의 초기 무작위성을 제어하는 노이즈 레벨을 초기화합니다.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓