HyperAI

1. 튜토리얼 소개

이 튜토리얼에서는 RTX 4090 그래픽 카드 하나를 사용합니다. 음성 복제, 스마트 음성, 다중 화자 음성 설명, 단일 화자 음성 설명, 단일 화자 zh, 단일 화자 배경음악 등 6가지 테스트 예시를 제공합니다. 시스템 프롬프트는 영어만 지원합니다.

2. 프로젝트 예시

음성 복제

스마트 음성

다중 화자 음성 설명

단일 화자 음성 설명

싱글 스피커-zh

단일 스피커 BGM

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. Safari 브라우저를 사용하는 경우 오디오가 바로 재생되지 않을 수 있으므로 재생하기 전에 다운로드해야 합니다.

2.1 음성 복제

매개변수 설명

고급 매개변수:
- 최대 완료 토큰: 생성된 오디오 텍스트의 길이(토큰 단위)를 제한합니다. 값이 클수록 생성된 오디오의 길이가 길어질 수 있습니다.
- 온도: 생성된 출력의 무작위성을 제어합니다. 낮은 값(예: 0.1)은 출력의 결정성과 반복성을 높이고, 높은 값(예: 1.0)은 출력의 다양성과 창의성을 높이지만, 일관성이 떨어질 수 있습니다.
- 상위 P: 모델이 각 단계에서 고려하는 레이블(누적 확률)의 범위를 제한합니다. 낮은 값(예: 0.5)은 출력의 집중도를 높이고, 높은 값(예: 0.95)은 출력의 다양성을 높입니다.
- 상위 K: 각 단계에서 가장 가능성이 높은 K개의 마커만 선택하도록 모델을 제한합니다. 값이 낮으면 출력이 더 확실해지고, 값이 높으면(또는 비활성화하려면 -1) 출력이 더 다양해집니다.
- RAS 창 길이: 중복 방지 기능을 활성화하고 중복을 검사할 텍스트 창의 크기를 정의합니다. 이 기능을 비활성화하려면 0으로 설정합니다.
- RAS 최대 반복 횟수: RAS 창과 함께 창 내에서 콘텐츠가 반복될 수 있는 최대 횟수를 정의합니다. 값이 낮을수록 반복 횟수가 줄어들고, 값이 높을수록 더 자연스러운 반복이 가능합니다.

2.2 스마트보이스

2.3 다중 화자 음성 설명

2.4 단일 화자 음성 설명

2.5 싱글 스피커-zh

2.6 싱글 스피커 BGM

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}

Higgs Audio V2: 음성 생성의 표현력 재정의

1. 튜토리얼 소개

2. 프로젝트 예시

음성 복제

스마트 음성

다중 화자 음성 설명

단일 화자 음성 설명

싱글 스피커-zh

단일 스피커 BGM

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

2.1 음성 복제

2.2 스마트보이스

2.3 다중 화자 음성 설명

2.4 단일 화자 음성 설명

2.5 싱글 스피커-zh

2.6 싱글 스피커 BGM

4. 토론

인용 정보

AI로 AI 구축

Hyper Newsletters

Command Palette

Higgs Audio V2: 음성 생성의 표현력 재정의

1. 튜토리얼 소개

2. 프로젝트 예시

음성 복제

스마트 음성

다중 화자 음성 설명

단일 화자 음성 설명

싱글 스피커-zh

단일 스피커 BGM

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

2.1 음성 복제

2.2 스마트보이스

2.3 다중 화자 음성 설명

2.4 단일 화자 음성 설명

2.5 싱글 스피커-zh

2.6 싱글 스피커 BGM

4. 토론

인용 정보

AI로 AI 구축

Hyper Newsletters