Command Palette

Search for a command to run...

한 달 전

IndexTTS2: 감정 표현이 풍부하고 지속시간을 제어할 수 있는 자기회귀형 제로샷 텍스트투스피치의 획기적 도약

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

IndexTTS2: 감정 표현이 풍부하고 지속시간을 제어할 수 있는 자기회귀형 제로샷 텍스트투스피치의 획기적 도약

초록

기존의 자동회귀형 대규모 음성합성(TTS) 모델은 자연스러운 음성 출력 측면에서 우수한 성능을 보이지만, 토큰 단위로 차례로 생성하는 구조상 합성 음성의 지속 시간을 정밀하게 제어하기 어려운 문제가 있다. 이는 비디오 더빙과 같이 엄격한 음성-영상 동기화가 요구되는 응용 분야에서 중대한 한계로 작용한다. 본 논문에서는 새로운 일반적이고 자동회귀 모델 친화적인 음성 지속 시간 제어 방법을 제안하는 IndexTTS2를 소개한다. 이 방법은 두 가지 생성 모드를 지원한다. 하나는 생성할 토큰 수를 명시적으로 지정함으로써 음성 지속 시간을 정밀하게 제어하는 모드이고, 다른 하나는 토큰 수를 지정하지 않고 자동회귀 방식으로 자유롭게 음성을 생성하면서 입력 프롬프트의 억양 특징을 정확히 재현하는 모드이다. 또한 IndexTTS2는 감정 표현과 화자 정체성 간의 분리(디센틀링)를 달성하여 음색과 감정을 별도로 제어할 수 있도록 했다. 제로샷(zero-shot) 설정에서 모델은 음색 프롬프트로부터 제공된 타겟 음색을 정확히 재현하면서, 스타일 프롬프트에서 지정된 감정 톤을 완벽하게 재현할 수 있다. 특히 감정 표현이 강할 경우 음성의 명확도를 향상시키기 위해 GPT 잠재 표현(GPT latent representations)을 도입하고, 생성 음성의 안정성을 향상시키기 위한 새로운 삼단계 학습 프레임워크를 설계하였다. 또한 감정 제어의 접근성을 높이기 위해 Qwen3를 미세조정(fine-tuning)하여 텍스트 기반의 소프트 지시(soft instruction) 메커니즘을 설계하였으며, 원하는 감정 방향을 갖는 음성을 효과적으로 유도할 수 있다. 마지막으로 다양한 데이터셋에서 수행된 실험 결과, IndexTTS2는 단어 오류율, 화자 유사도, 감정 충실도 측면에서 최신의 제로샷 TTS 모델들을 모두 상회함을 확인하였다. 오디오 샘플은 다음 URL에서 확인할 수 있다: this https URL

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
IndexTTS2: 감정 표현이 풍부하고 지속시간을 제어할 수 있는 자기회귀형 제로샷 텍스트투스피치의 획기적 도약 | 연구 논문 | HyperAI초신경