
초록
본 논문에서는 멜 스펙트로그램에서 고품질 음성을 생성할 수 있는 흐름 기반 네트워크인 WaveGlow를 제안합니다. WaveGlow는 Glow와 WaveNet의 통찰력을 결합하여 자기 회귀(auto-regression)이 필요하지 않은 빠르고 효율적이며 고품질의 오디오 합성을 제공합니다. WaveGlow는 단일 네트워크만을 사용하여 구현되며, 단일 비용 함수(훈련 데이터의 가능도 최대화)를 사용하여 훈련되므로 훈련 절차가 간단하고 안정적입니다. 우리의 PyTorch 구현은 NVIDIA V100 GPU에서 초당 500kHz 이상의 오디오 샘플을 생성합니다. 평균 의견 점수(Mean Opinion Scores)는 WaveGlow가 가장 우수한 공개된 WaveNet 구현과 동등한 오디오 품질을 제공함을 보여줍니다. 모든 코드는 온라인으로 공개될 예정입니다.