16일 전
Glow-TTS: 단조성 정렬 탐색을 통한 텍스트에서 음성으로 생성하는 흐름
Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon

초록
최근 FastSpeech 및 ParaNet과 같은 텍스트-to-음성(TTS) 모델들이 텍스트에서 멜스펙트로그램을 병렬로 생성하기 위해 제안되었다. 이러한 병렬 TTS 모델은 외부의 순차적 TTS 모델(autoregressive TTS 모델)을 통한 안내 없이 학습될 수 없다는 한계가 있다. 본 연구에서는 외부 어라이어(aligner)가 전혀 필요 없는 병렬 TTS를 위한 흐름 기반 생성 모델인 Glow-TTS를 제안한다. 본 모델은 흐름(flo)의 성질과 동적 프로그래밍(dynamic programming)을 결합함으로써, 텍스트와 음성의 잠재 표현 사이의 가장 확률이 높은 단조성 있는 어라이어(монотonic alignment)를 자체적으로 탐색한다. 우리는 단조성 있는 어라이어를 강제함으로써 장문의 발화에도 잘 일반화되는 강건한 TTS를 가능하게 하며, 생성적 흐름(generative flows)을 활용함으로써 빠르고 다양하며 제어 가능한 음성 합성도 가능함을 보여준다. Glow-TTS는 Tacotron 2와 비교해 음성 합성 속도에서 10배 이상의 성능 향상을 달성하면서도, 동등한 음성 품질을 유지한다. 또한 본 모델이 다중 화자(multi-speaker) 환경으로 쉽게 확장될 수 있음을 보여준다.