2달 전
Tacotron: End-to-End 음성 합성에의 접근
Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

초록
텍스트-음성 합성 시스템은 일반적으로 텍스트 분석 프론트엔드, 음향 모델 및 오디오 합성 모듈 등 여러 단계로 구성됩니다. 이러한 구성 요소를 구축하는 것은 종종 광범위한 영역 전문 지식을 필요로 하며, 설계 선택에서 취약성을 포함할 수 있습니다. 본 논문에서는 문자로부터 직접 음성을 합성하는 엔드투엔드 생성형 텍스트-음성 모델인 타코트론(Tacotron)을 제시합니다. 주어진 <텍스트, 오디오> 쌍에 대해 모델은 무작위 초기화를 통해 완전히 처음부터 학습될 수 있습니다. 우리는 이 어려운 작업을 위해 시퀀스-투-시퀀스 프레임워크가 잘 수행되도록 하는 몇 가지 핵심 기술을 소개합니다. 타코트론은 미국 영어에서 5점 척도의 주관적 평균 의견 점수(MOS) 3.82점을 달성하여 자연스러움 면에서 상용 파라메트릭 시스템을 능가합니다. 또한, 타코트론이 프레임 레벨에서 음성을 생성하기 때문에 샘플 레벨 자동 회귀 방법보다 크게 빠릅니다.