13일 전
DiffWave: 오디오 합성용 유연한 확산 모델
Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro

초록
본 연구에서는 조건부 및 비조건부 웨이브폼 생성을 위한 다목적 확산 확률 모델인 DiffWave을 제안한다. 이 모델은 자동회귀적(non-autoregressive)이며, 합성 과정에서 일정한 단계 수를 가진 마르코프 체인을 통해 흰색 잡음 신호를 구조화된 웨이브폼으로 변환한다. 데이터의 가능도에 대한 변분 경계(variational bound)의 변형을 최적화함으로써 효율적으로 학습이 가능하다. DiffWave는 멜 스펙트로그램에 조건부된 신경망 볼러코더(neural vocoding), 클래스 조건부 생성, 비조건부 생성 등 다양한 웨이브폼 생성 작업에서 고음질 오디오를 생성한다. 실험을 통해 DiffWave는 음성 품질 측면에서 강력한 WaveNet 볼러코더와 거의 동등한 성능(MOS: 4.44 대 4.43)을 달성하면서도, 합성 속도가 수십 배에서 수백 배 이상 빠르다는 것을 입증하였다. 특히, 자동 및 인위적 평가를 통해 비조건부 생성 과제에서 기존의 자동회귀 모델과 GAN 기반 모델에 비해 음질과 샘플 다양성 면에서 뚜렷한 우수성을 보였다.