Higgs Audio V2: 음성 생성의 표현력 재정의

1. 튜토리얼 소개

GitHub 스타

Higgs Audio V2는 Li Mu와 그의 팀 Boson AI가 2025년 7월에 발표한 대규모 음성 모델입니다. EmergentTTS-Eval에서 이 모델은 "감정"과 "질문" 범주에서 각각 "gpt-4o-mini-tts"보다 75.7%, 55.7% 높은 성능을 보였습니다. 또한 Seed-TTS Eval 및 Emotional Speech Dataset(ESD)과 같은 기존 TTS 벤치마크에서도 최고 성능을 달성했습니다. 또한, 이 모델은 내레이션 중 자동 운율 조정, 여러 언어로 자연스러운 다중 화자 대화의 제로 샘플 생성, 복제된 음성의 멜로디 허밍, 음성과 배경 음악 동시 생성 등 이전 시스템에서는 보기 드문 기능들을 보여주었습니다. 관련 논문 결과는 다음과 같습니다.EmergentTTS-Eval: 모델을 판단자로 사용하여 복잡한 음성, 표현력 및 언어적 과제에 대한 TTS 모델 평가".

이 튜토리얼에서는 RTX 4090 그래픽 카드 하나를 사용합니다. 음성 복제, 스마트 음성, 다중 화자 음성 설명, 단일 화자 음성 설명, 단일 화자 zh, 단일 화자 배경음악 등 6가지 테스트 예시를 제공합니다. 시스템 프롬프트는 영어만 지원합니다.

2. 프로젝트 예시

음성 복제

스마트 음성

다중 화자 음성 설명

단일 화자 음성 설명

싱글 스피커-zh

단일 스피커 BGM

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. Safari 브라우저를 사용하는 경우 오디오가 바로 재생되지 않을 수 있으므로 재생하기 전에 다운로드해야 합니다.

2.1 음성 복제

매개변수 설명

  • 고급 매개변수:
    • 최대 완료 토큰: 생성된 오디오 텍스트의 길이(토큰 단위)를 제한합니다. 값이 클수록 생성된 오디오의 길이가 길어질 수 있습니다.
    • 온도: 생성된 출력의 무작위성을 제어합니다. 낮은 값(예: 0.1)은 출력의 결정성과 반복성을 높이고, 높은 값(예: 1.0)은 출력의 다양성과 창의성을 높이지만, 일관성이 떨어질 수 있습니다.
    • 상위 P: 모델이 각 단계에서 고려하는 레이블(누적 확률)의 범위를 제한합니다. 낮은 값(예: 0.5)은 출력의 집중도를 높이고, 높은 값(예: 0.95)은 출력의 다양성을 높입니다.
    • 상위 K: 각 단계에서 가장 가능성이 높은 K개의 마커만 선택하도록 모델을 제한합니다. 값이 낮으면 출력이 더 확실해지고, 값이 높으면(또는 비활성화하려면 -1) 출력이 더 다양해집니다.
    • RAS 창 길이: 중복 방지 기능을 활성화하고 중복을 검사할 텍스트 창의 크기를 정의합니다. 이 기능을 비활성화하려면 0으로 설정합니다.
    • RAS 최대 반복 횟수: RAS 창과 함께 창 내에서 콘텐츠가 반복될 수 있는 최대 횟수를 정의합니다. 값이 낮을수록 반복 횟수가 줄어들고, 값이 높을수록 더 자연스러운 반복이 가능합니다.

2.2 스마트보이스

2.3 다중 화자 음성 설명

2.4 단일 화자 음성 설명

2.5 싱글 스피커-zh

2.6 싱글 스피커 BGM

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{higgsaudio2025,
  author       = {{Boson AI}},
  title        = {{Higgs Audio V2: Redefining Expressiveness in Audio Generation}},
  year         = {2025},
  howpublished = {\url{https://github.com/boson-ai/higgs-audio}},
  note         = {GitHub repository. Release blog available at \url{https://www.boson.ai/blog/higgs-audio-v2}},
}
Higgs Audio V2: 음성 생성의 표현력 재정의 | 튜토리얼 | HyperAI초신경