Command Palette

Search for a command to run...

IndexTTS-2: 자기회귀 TTS 지속시간 및 감정 제어의 병목 현상 극복

1. 튜토리얼 소개

짓다

IndexTTS-2는 Bilibili Voice 팀이 2025년 6월 오픈소스로 공개한 새로운 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 감정 표현 및 지속 시간 제어 분야에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자기회귀 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며, 단 하나의 오디오 파일로 음색, 리듬, 발화 스타일을 정확하게 재현할 수 있고, 여러 언어를 지원합니다. IndexTTS-2는 감정 음색 분리 제어를 구현하며, 사용자는 음색과 감정의 출처를 독립적으로 지정할 수 있습니다. 이 모델은 다중 모드 감정 입력 기능을 갖추고 있으며, 감정 참조 오디오, 감정 설명 텍스트 또는 감정 벡터를 통한 감정 제어를 지원합니다. 관련 논문 결과는 "IndexTTS2: 감정 표현 및 지속 시간 제어 자동 회귀 제로샷 텍스트 음성 변환의 획기적인 발전".

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.

2. 효과 표시

음성 참조와 동일

감정 참조 오디오 사용

감정 벡터를 사용하세요

텍스트 설명을 사용하여 감정을 제어하세요

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

1. 음성참조와 동일

구체적인 매개변수:

  • 고급 매개변수 설정:
    • do_sample: 샘플링을 수행할지 여부.
    • 온도: 샘플링 중 확률 분포의 부드러움을 제어합니다.
    • top_p: 커널 샘플링,.
    • top_k: 각 생성 단계에서 확률이 가장 높은 K개의 토큰만 고려됩니다.
    • num_beams: 빔 검색 폭.
    • repetition_penalty: 반복 페널티는 모델이 동일한 토큰을 반복적으로 생성할 확률을 줄여줍니다.
    • length_penalty: 길이 페널티로, 모델이 더 길거나 짧은 시퀀스를 생성하지 않도록 유도하거나 억제합니다. num_beams > 1을 사용할 때 특히 효과적입니다.
    • max_mel_tokens: 생성되는 토큰의 최대 수.

2. 감정 참조 오디오 사용

3. 감정 벡터를 사용하세요

감정 조절 매개변수:

  • 행복, 혐오, 분노, 우울, 슬픔, 놀람, 두려움, 침착: 이 감정들은 여덟 가지 기본 감정 차원에 해당합니다. 각 슬라이더의 값(일반적으로 0.0에서 1.0 사이)은 최종 연설에 반영되기를 원하는 감정의 강도를 나타냅니다.

4. 텍스트 설명을 사용하여 감정을 제어하세요

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
IndexTTS-2: 자기회귀 TTS 지속시간 및 감정 제어의 병목 현상 극복 | 튜토리얼 | HyperAI초신경