OuteTTS: 음성 생성 엔진
1. 튜토리얼 소개

OuteTTS는 Oute AI 팀이 2024년 11월 초에 출시한 오픈 소스 텍스트-음성(TTS) 합성 프로젝트입니다. 핵심 혁신은 기존 TTS 시스템의 복잡한 어댑터나 외부 모듈에 의존하지 않고 순수 언어 모델링 방식을 사용하여 고품질 음성을 생성하는 것입니다. 주요 기능은 다음과 같습니다.
- 텍스트-음성 합성: 텍스트를 입력하여 자연스럽고 유창한 음성 출력을 생성하고, 사용자 정의 가능한 음성 속도와 억양을 지원합니다.
- 음성 복제: 사용자는 몇 초 정도의 짧은 참조 오디오와 해당 텍스트를 제공하여 개인화된 음성을 만들 수 있습니다. 이는 맞춤형 음성 지원, 오디오북 및 기타 시나리오에 적합합니다.
본 튜토리얼에 사용된 모델은 Oute AI에서 2025년 3월에 출시한 Llama-OuteTTS-1.0-1B 모델입니다. 매개변수가 3억 5천만 개에서 10억 개로 증가하여 음성 표현력과 안정성이 크게 향상되었습니다. 또한 20개 언어의 현지화 합성을 지원하고 언어 간 복제 기능도 더욱 최적화되었습니다.
이 튜토리얼의 컴퓨팅 리소스는 단일 RTX 4090 카드를 사용합니다. 이 튜토리얼은 주로 기본 스피커와 음성 복제의 두 가지 사용 예를 제공합니다. 이 튜토리얼은 영어만 지원합니다.
2. 효과 표시

3. 작업 단계
1. 컨테이너를 시작하세요

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.
구체적인 매개변수:
- 텍스트: 생성할 텍스트를 입력하세요.
- 온도: 출력의 무작위성을 제어하는 스케일링 요소입니다.
- 반복 페널티: 반복 생성을 억제하기 위한 페널티 계수입니다.
- Top-k: 각 단계에서 생성되는 후보 단어의 수를 제한합니다.
- Top-p: 동적 후보 단어 선택(커널 샘플링).
- 최소 확률(min-p): 후보 단어에 대한 최소 확률 임계값을 설정합니다.
1. 기본 스피커

2. 음성 복제

4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
