11일 전

Grad-TTS: 텍스트에서 음성으로의 디퓨전 확률 모델

Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov
Grad-TTS: 텍스트에서 음성으로의 디퓨전 확률 모델
초록

최근 들어, 노이즈 제거 확산 확률 모델과 생성적 스코어 매칭 기법은 복잡한 데이터 분포를 모델링하는 데 높은 잠재력을 보여주었으며, 확률적 미적분학은 이러한 기법들을 통합적인 관점에서 바라볼 수 있게 하여 유연한 추론 방식을 가능하게 하였다. 본 논문에서는 텍스트 입력에 맞춰 일치하는 정보를 인코더가 예측한 노이즈를 점진적으로 변환함으로써 메르-스펙트로그램을 생성하는 스코어 기반 디코더를 갖춘 새로운 음성 합성 모델인 Grad-TTS를 제안한다. 모노톤 애니어링 서치(Monotonic Alignment Search)를 통해 텍스트 입력과 일치시키는 방식으로 노이즈를 조정한다. 확률적 미분 방정식의 프레임워크는 기존의 확산 확률 모델을 노이즈에서 다양한 파라미터를 가진 데이터를 재구성하는 경우로 일반화할 수 있게 하며, 음질과 추론 속도 사이의 트레이드오프를 명시적으로 조절함으로써 재구성 과정의 유연성을 제공한다. 주관적 인간 평가 결과, Grad-TTS는 평균 관점 점수(Mean Opinion Score) 측면에서 최첨단 음성 합성 기법들과 경쟁 가능한 성능을 보였다. 코드는 곧 공개될 예정이다.

Grad-TTS: 텍스트에서 음성으로의 디퓨전 확률 모델 | 최신 연구 논문 | HyperAI초신경