11일 전
Grad-TTS: 텍스트에서 음성으로의 디퓨전 확률 모델
Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov

초록
최근 들어, 노이즈 제거 확산 확률 모델과 생성적 스코어 매칭 기법은 복잡한 데이터 분포를 모델링하는 데 높은 잠재력을 보여주었으며, 확률적 미적분학은 이러한 기법들을 통합적인 관점에서 바라볼 수 있게 하여 유연한 추론 방식을 가능하게 하였다. 본 논문에서는 텍스트 입력에 맞춰 일치하는 정보를 인코더가 예측한 노이즈를 점진적으로 변환함으로써 메르-스펙트로그램을 생성하는 스코어 기반 디코더를 갖춘 새로운 음성 합성 모델인 Grad-TTS를 제안한다. 모노톤 애니어링 서치(Monotonic Alignment Search)를 통해 텍스트 입력과 일치시키는 방식으로 노이즈를 조정한다. 확률적 미분 방정식의 프레임워크는 기존의 확산 확률 모델을 노이즈에서 다양한 파라미터를 가진 데이터를 재구성하는 경우로 일반화할 수 있게 하며, 음질과 추론 속도 사이의 트레이드오프를 명시적으로 조절함으로써 재구성 과정의 유연성을 제공한다. 주관적 인간 평가 결과, Grad-TTS는 평균 관점 점수(Mean Opinion Score) 측면에서 최첨단 음성 합성 기법들과 경쟁 가능한 성능을 보였다. 코드는 곧 공개될 예정이다.