HyperAI초신경

Chatterbox TTS: 음성 합성 데모

1. 튜토리얼 소개

짓다

Chatterbox는 Resemble AI가 2025년 5월 28일에 출시한 오픈 소스 텍스트-음성 변환(TTS) 모델로, 고성능의 유연한 음성 합성 솔루션을 제공하도록 설계되었습니다. 이 모델은 감정 과장 제어를 지원하는 최초의 오픈 소스 TTS 모델입니다. 5억 개의 매개변수를 가진 LLaMA 아키텍처를 기반으로 하며, 50만 시간 이상의 선별된 오디오 데이터로 학습되었습니다. 다국어 및 다음색 생성을 지원하며, ElevenLabs와 같은 폐쇄형 소스 시스템보다 뛰어난 성능을 제공합니다.

Chatterbox의 핵심 기능 중 하나는 제로 샘플 음성 복제로, 복잡한 학습 과정 없이 단 5초의 참조 오디오만으로도 매우 사실적인 개인화된 음성을 생성할 수 있습니다. 또한, 감정 과장 제어 기능을 지원하여 사용자가 감정의 강도, 말하는 속도, 억양을 조절하여 음성을 더욱 풍부하게 표현할 수 있습니다. Chatterbox의 초저지연 실시간 합성 기능은 지연 시간이 최대 200밀리초 미만으로 가상 비서 및 실시간 더빙과 같은 대화형 애플리케이션에 적합합니다. 콘텐츠의 보안 및 추적성을 보장하기 위해, Resemble AI의 Perth 신경망 워터마킹 기술이 Chatterbox에서 생성된 오디오에 내장되어 악용을 방지합니다.

주요 혁신은 다음과 같습니다.

  • 감정적 과장 제어: 매개변수를 조정하면(예: 과장 = 0.7 + cfg = 0.3) 평범한 말투에서 극적인 말투까지 원하는 말투 스타일을 구현할 수 있습니다.
  • 실시간 합성 기능: 추론 지연 < 200ms, 실시간 대화형 시나리오에 적합

이 튜토리얼의 컴퓨팅 리소스는 RTX 4090 카드 1개를 사용합니다. 이 모델의 프롬프트 단어는 영어만 지원합니다.

2. 작업 단계

1. 컨테이너를 시작하세요

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

2. 사용 단계

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

1. 텍스트 생성

구체적인 매개변수:

  • 합성할 텍스트: 음성으로 변환할 텍스트를 입력하세요. 최대 300자까지 입력할 수 있습니다(텍스트가 너무 길면 자동으로 잘립니다).
  • 참조 오디오 파일(선택 사항): 시스템이 화자의 음성 스타일, 음조, 리듬을 모방할 수 있도록 참조 오디오 파일을 제공합니다.
  • 과장(중립 = 0.5): 감정 표현과 음성 톤의 과장을 조절합니다.
  • CFG/페이스: 말의 리듬과 속도를 조절합니다.
  • 난수 시드(0은 난수): 난수 시드를 설정합니다.
  • 온도: 언어 표현의 무작위성과 다양성을 제어합니다.

결과 

3. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓