
초록
확산 모델은 많은 경우에서 GAN보다 뛰어난 품질을 제공함으로써 고해상도 이미지 생성을 위한 강력한 해결책으로 부상하고 있다. 그러나 느린 학습 및 추론 속도는 실시간 응용 분야에 활용되는 것을 막는 주요한 성능 저하 요인이 되고 있다. 최근 제안된 DiffusionGAN 방법은 샘플링 단계 수를 수천 단계에서 몇 단계로 감소시킴으로써 모델의 실행 시간을 크게 단축시켰지만, 여전히 GAN 기반 모델에 비해 상당한 성능 차이를 보이고 있다. 본 논문은 새로운 웨이블릿 기반 확산 방식을 제안함으로써 이러한 속도 격차를 줄이는 것을 목표로 한다. 우리는 웨이블릿 분해를 통해 이미지 및 특징 수준에서 저주파 및 고주파 성분을 추출하고, 이를 적응적으로 처리함으로써 빠른 처리를 가능하게 하면서도 우수한 생성 품질을 유지한다. 더불어, 모델의 학습 수렴을 효과적으로 촉진하는 재구성 항을 도입한다. CelebA-HQ, CIFAR-10, LSUN-Church, STL-10 데이터셋을 대상으로 한 실험 결과를 통해 제안한 방법이 실시간 및 고해상도 확산 모델을 제공하는 중요한 전환점이 될 수 있음을 입증하였다. 본 연구의 코드 및 사전 학습된 체크포인트는 \url{https://github.com/VinAIResearch/WaveDiff.git}에서 공개되어 있다.