2달 전

FastSpeech: 빠르고 견고하며 제어 가능한 텍스트-음성 변환

Yi Ren; Yangjun Ruan; Xu Tan; Tao Qin; Sheng Zhao; Zhou Zhao; Tie-Yan Liu
FastSpeech: 빠르고 견고하며 제어 가능한 텍스트-음성 변환
초록

신경망 기반의 엔드투엔드 텍스트-음성 변환(TTS)은 합성 음성의 품질을 크게 개선하였습니다. 주요 방법들(예: Tacotron 2)은 일반적으로 먼저 텍스트에서 멜 스펙트로그램을 생성한 후, WaveNet과 같은 보코더를 사용하여 멜 스펙트로그램에서 음성을 합성합니다. 전통적인 연결형과 통계적 매개변수 접근법에 비해, 신경망 기반의 엔드투엔드 모델은 추론 속도가 느리고, 합성된 음성이 일반적으로 불안정(즉, 일부 단어가 생략되거나 반복됨)하며 제어 가능성이 부족(음성 속도나 억양 제어)하다는 문제가 있습니다. 본 연구에서는 TTS를 위해 멜 스펙트로그램을 병렬로 생성하는 새로운 트랜스포머 기반 피드포워드 네트워크를 제안합니다. 구체적으로, 우리는 인코더-디코더 기반의 교사 모델에서 주의 정렬(attention alignments)을 추출하여 음소 지속 시간 예측에 사용합니다. 이는 길이 조절기(length regulator)에 의해 소스 음소 시퀀스를 대상 멜 스펙트로그램 시퀀스의 길이와 일치시키기 위해 확장됩니다. LJSpeech 데이터셋을 이용한 실험 결과, 우리의 병렬 모델은 자동회귀 모델과 동일한 음성 품질을 보여주며 특히 어려운 경우에 단어 생략 및 반복 문제를 거의 없애고, 음성 속도를 부드럽게 조정할 수 있음을 확인하였습니다. 무엇보다도, 자동회귀 트랜스포머 TTS와 비교하여 우리의 모델은 멜 스펙트로그램 생성 속도를 270배 빠르게 하고 엔드투엔드 음성 합성을 38배 가속화하였습니다. 따라서, 우리 모델을 FastSpeech라고 명명하였습니다.

FastSpeech: 빠르고 견고하며 제어 가능한 텍스트-음성 변환 | 최신 연구 논문 | HyperAI초신경