FastSpeech 2: 빠르고 고품질의 엔드투엔드 텍스트투스피치

비자기적(text-to-speech, TTS) 모델인 FastSpeech는 이전의 자기적 모델에 비해 훨씬 빠른 음성 합성 속도를 제공하면서도 유사한 음질을 유지할 수 있다. FastSpeech 모델의 학습은 지도 학습을 위한 자기적 테이처 모델을 활용하여 지속 시간 예측(더 많은 정보를 입력으로 제공)과 지식 전이(knowledge distillation)를 수행하는데, 이는 TTS에서 발생하는 일대다 매핑 문제(즉, 동일한 텍스트에 대해 여러 가지 음성 변형이 존재하는 문제)를 완화하는 데 기여한다. 그러나 FastSpeech는 몇 가지 단점이 있다. 첫째, 테이처-학생 지식 전이 파이프라인은 복잡하고 시간이 오래 걸린다. 둘째, 테이처 모델에서 추출한 지속 시간의 정확도가 부족하며, 테이처 모델로부터 전이된 목표 mel-spectrogram은 데이터 단순화로 인해 정보 손실이 발생한다. 이러한 문제들은 음성 품질에 제약을 초래한다. 본 논문에서는 FastSpeech의 문제점을 해결하고, TTS의 일대다 매핑 문제를 더욱 효과적으로 해결하기 위해 FastSpeech 2를 제안한다. 제안된 방법은 다음과 같은 두 가지 핵심 기술을 포함한다. 첫째, 테이처 모델의 단순화된 출력이 아닌, 실제 목표값(ground-truth target)을 직접 사용하여 모델을 학습한다. 둘째, 음성의 더 많은 변동 정보(예: 음높이, 에너지, 보다 정확한 지속 시간 등)를 조건 입력으로 도입한다. 구체적으로, 음성 웨이브폼에서 지속 시간, 음높이, 에너지를 추출하여 학습 시 조건 입력으로 직접 사용하며, 추론 시에는 예측된 값을 사용한다. 또한, 본 논문은 텍스트로부터 병렬로 음성 웨이브폼을 직접 생성하는 최초의 시도인 FastSpeech 2s를 제안한다. 이는 완전한 엔드투엔드 추론의 이점을 누릴 수 있다. 실험 결과에 따르면, 1) FastSpeech 2는 FastSpeech 대비 3배 빠른 학습 속도를 달성하였으며, FastSpeech 2s는 더 빠른 추론 속도를 보였다. 2) FastSpeech 2와 2s는 FastSpeech보다 더 우수한 음성 품질을 제공하며, FastSpeech 2는 자기적 모델을 넘어서는 성능을 달성하였다. 오디오 샘플은 다음 링크에서 확인할 수 있다: https://speechresearch.github.io/fastspeech2/.