2달 전
멜 스펙트로그램 예측을 사용한 WaveNet 조건부 자연적인 TTS 합성
Jonathan Shen; Ruoming Pang; Ron J. Weiss; Mike Schuster; Navdeep Jaitly; Zongheng Yang; Zhifeng Chen; Yu Zhang; Yuxuan Wang; RJ Skerry-Ryan; Rif A. Saurous; Yannis Agiomyrgiannakis; Yonghui Wu

초록
본 논문은 텍스트로부터 직접 음성 합성을 수행하는 신경망 아키텍처인 Tacotron 2를 설명합니다. 이 시스템은 문자 임베딩을 멜 스케일 스펙트로그램으로 매핑하는 순환 시퀀스-투-시퀀스 특징 예측 네트워크와, 해당 스펙트로그램에서 시간 영역 파형을 합성하는 수정된 WaveNet 모델로 구성됩니다. 본 모델은 전문적으로 녹음된 음성의 평균 의견 점수(MOS, Mean Opinion Score) $4.58$과 유사한 $4.53$의 MOS를 달성하였습니다. 설계 선택의 타당성을 검증하기 위해, 본 시스템의 주요 구성 요소에 대한 제거 연구(ablation studies)를 제시하고, 언어학적 특징, 지속 시간, 그리고 $F_0$ 특징 대신 멜 스펙트로그램을 WaveNet의 입력으로 사용할 때의 영향을 평가하였습니다. 또한, 압축된 음향 중간 표현을 사용함으로써 WaveNet 아키텍처의 상당한 단순화가 가능하다는 것을 보여주었습니다.