11일 전
신경망 HMM은 고품질의 주의 없이 TTS를 위한 전부입니다
Shivam Mehta, Éva Székely, Jonas Beskow, Gustav Eje Henter

초록
신경망 기반의 시퀀스-투-시퀀스 TTS는 HMM을 사용하는 통계적 음성 합성보다 훨씬 우수한 출력 품질을 달성하였다. 그러나 신경망 TTS는 일반적으로 확률적 모델이 아니며, 비단조적(Non-monotonic) 어텐션을 사용한다. 이러한 어텐션 실패는 학습 시간을 증가시키고, 음성 합성 시 일관성 없는 말투를 유발할 수 있다. 본 논문에서는 기존의 전통적 패러다임과 최신 패러다임을 결합함으로써 두 세계의 장점을 모두 취할 수 있는 방법을 제시한다. 이를 위해 신경망으로 정의된 자기회귀적(autoregressive) 왼쪽-오른쪽-스킵 없음(left-right no-skip) 은닉 마르코프 모델(HMM)을 신경망 TTS의 어텐션 메커니즘 대신 사용한다. 이 제안을 바탕으로, 타코트론 2(Tacotron 2)를 수정하여 단조적(монотonic) 정렬을 갖는 HMM 기반 신경망 TTS 모델을 개발하였으며, 근사 없이 전체 시퀀스의 가능도를 최대화하도록 학습하였다. 또한 전통적 TTS와 현대적 TTS의 아이디어를 효과적으로 융합하여 최적의 성능을 달성하는 방법을 설명한다. 제안된 시스템은 타코트론 2보다 더 작고 간단하며, 더 적은 반복 횟수와 더 적은 데이터로도 자연스러운 발화를 학습할 수 있으며, 포스트넷(Post-net) 적용 전 단계에서 유사한 자연스러움을 달성한다. 또한 본 방법은 발화 속도에 대한 간편한 제어를 가능하게 한다.