
초록
본 연구에서는 최대우도 기반으로 직접 훈련되는 원시 음성 신호를 위한 소형 포트를 가진 생성형 플로우 모델인 WaveFlow을 제안한다. WaveFlow은 확장된 2차원 컨볼루션 아키텍처를 통해 1차원 웨이브폼의 장거리 구조를 다루면서, 표현력 있는 자기회귀 함수를 활용하여 국소적인 변동성을 모델링한다. WaveFlow은 WaveNet과 WaveGlow를 특수한 경우로 포함하는, 1차원 데이터에 대한 우도 기반 모델의 통합적 관점을 제공한다. WaveNet과 동일한 고음질 음성 생성 성능을 보이지만, 수백만 개의 타임스텝을 가진 매우 긴 웨이브폼을 생성하기 위해 단 몇 번의 순차적 단계만을 요구하므로, WaveGlow보다 수십 배 빠르게 합성할 수 있다. 더불어, 효율적인 음성 합성을 위한 자기회귀 모델과 플로우 기반 모델 간에 오랫동안 존재해온 우도 차이를 크게 줄일 수 있다. 마지막으로, 소형 포트를 가진 본 모델인 WaveFlow은 총 591만 개의 파라미터만을 가지며, WaveGlow보다 15배 작다. V100 GPU에서 엔지니어링된 추론 커널 없이도 실시간 대비 42.6배 빠른 속도(초당 939.3kHz)로 22.05kHz 고음질 오디오를 생성할 수 있다.