
지난 10년간 다양한 심층 생성 모델이 개발되어 왔다. 그러나 이러한 모델들은 일반적으로 높은 샘플 품질, 모드 커버리지, 그리고 빠른 샘플링이라는 세 가지 핵심 요구사항을 동시에 충족하는 데 어려움을 겪는다. 이러한 요구사항들이 동시에 충족되기 어려운 문제를 우리는 '생성 학습의 삼중 곤란(trilemma)'이라고 부르며, 기존 모델들은 이들 사이에서 일부를 희생하며 타협을 보이는 경향이 있다. 특히, 노이즈 제거 확산 모델(denoising diffusion models)은 놀라운 샘플 품질과 다양성을 보여주었으나, 그 비싼 샘플링 비용으로 인해 많은 실용적 응용에 적용되기에는 부적절하다. 본 논문에서는 이러한 모델의 느린 샘플링이 노이즈 제거 단계에서 가우시안 가정(Gaussian assumption)에 기인하며, 이 가정은 작고 작은 단계 크기에서만 타당하다는 점에 근거하여, 큰 단계로 노이즈 제거를 가능하게 하여 총 노이즈 제거 단계 수를 줄일 수 있도록 하기 위해, 복잡한 다중모달 분포(multimodal distribution)를 사용하여 노이즈 제거 분포를 모델링할 것을 제안한다. 이를 위해 각 노이즈 제거 단계를 다중모달 조건부 GAN(conditional GAN)으로 모델링하는 노이즈 제거 확산 생성적 적대망(denoising diffusion generative adversarial networks, denoising diffusion GANs)을 도입한다. 광범위한 평가를 통해, denoising diffusion GANs가 원래 확산 모델과 경쟁 가능한 샘플 품질과 다양성을 확보하면서도 CIFAR-10 데이터셋에서 기존 모델보다 2000배 빠른 속도를 달성함을 보여준다. 기존의 전통적 GAN들과 비교했을 때, 본 모델은 더 우수한 모드 커버리지와 샘플 다양성을 나타낸다. 우리 지식에 따르면, denoising diffusion GAN은 확산 모델의 샘플링 비용을 실용적인 응용에 경제적으로 적용할 수 있을 정도로 줄인 최초의 모델이다. 프로젝트 페이지 및 코드는 다음 링크에서 확인할 수 있다: https://nvlabs.github.io/denoising-diffusion-gan