
초록
확산 확률 모델(Diffusion Probabilistic Models, DPMs) 및 그 확장 모델들은 경쟁력 있는 생성 모델로 부상했지만, 효율적인 샘플링 문제에 직면해 있다. 본 연구에서는 전방 및 역방향 과정을 스케줄 네트워크와 스코어 네트워크로 매개변수화하는 새로운 이중성 소음 제거 확산 모델(Bilateral Denoising Diffusion Model, BDDM)을 제안한다. 이 모델은 새로운 이중성 모델링 목적함수를 통해 학습이 가능하며, 기존의 대체 목적함수보다 더 강한 로그 마진 확률의 하한을 달성함을 보였다. 또한 BDDM은 임의의 DPM에서 사전 학습된 스코어 네트워크 파라미터를 그대로 활용할 수 있어, 스케줄 네트워크의 빠르고 안정적인 학습 및 샘플링을 위한 노이즈 스케줄 최적화를 가능하게 한다. 실험 결과, BDDM은 단 세 단계의 샘플링만으로도 고해상도 음성 샘플을 생성할 수 있음을 확인했다. 또한, 다른 최첨단 확산 기반 신경 음성합성기(neural vocoders)와 비교했을 때, BDDM은 인간의 발성과 구분되지 않는 또는 더 높은 품질의 음성 샘플을 생성하며, 단 7단계의 샘플링만으로도 WaveGrad보다 143배, DiffWave보다 28.6배 빠른 속도를 달성했다. 본 연구의 코드는 https://github.com/tencent-ailab/bddm 에서 공개된다.