
초록
최근 음성 합성 분야에서 생성적 적대 신경망(GAN)을 활용하여 원시 파형(raw waveform)을 생성하는 연구들이 다수 제안되었다. 이러한 방법들은 샘플링 효율성과 메모리 사용량 측면에서 개선을 보였지만, 여전히 순차적 생성(auto-regressive) 및 플로우 기반(flow-based) 생성 모델에 비해 샘플 품질이 떨어지고 있다. 본 연구에서는 효율적이고 고해상도의 음성 합성을 동시에 달성하는 HiFi-GAN을 제안한다. 음성 오디오는 다양한 주기의 정현파 신호로 구성되어 있음을 고려하여, 오디오의 주기적 패턴을 효과적으로 모델링하는 것이 샘플 품질 향상에 핵심적임을 입증하였다. 단일 화자 데이터셋에 대한 주관적 인간 평가(Mean Opinion Score, MOS) 결과에 따르면, 제안한 방법은 인간의 음성 품질과 유사한 수준을 보이며, 단일 V100 GPU에서 22.05 kHz 고해상도 오디오를 실시간 대비 167.9배 빠르게 생성할 수 있다. 또한 HiFi-GAN이 미처 경험하지 못한 화자의 멜스펙트로그램 역변환 및 엔드투엔드 음성 합성에까지 일반화 가능함을 보여주었다. 마지막으로, 공간 복잡도가 낮은 HiFi-GAN의 경량 버전은 CPU에서 실시간 대비 13.4배 빠르게 샘플을 생성하면서도 순차적 생성 모델과 비교해 유사한 품질을 유지함을 확인하였다.