
초록
확산 모델은 다양한 생성 작업에서 뛰어난 성능을 보여왔다. 최근의 성공에도 불구하고, 대부분의 확산 모델은 데이터 분포에 대한 선형 변환만 허용한다는 한계를 가지고 있다. 반면에 더 포괄적인 변환 가족은 생성 분포를 더 효율적으로 학습하는 데 도움을 줄 수 있으며, 역과정을 단순화하고 진정한 음의 로그우도(negative log-likelihood)와 변분 근사 사이의 격차를 좁힐 수 있다. 본 논문에서는 기존 확산 모델의 일반화인 신경 확산 모델(Neural Diffusion Models, NDMs)을 제안한다. NDMs는 시간에 따라 변화하는 비선형 변환을 정의하고 학습할 수 있도록 한다. 우리는 시뮬레이션 없이도 변분 경계를 활용하여 NDMs를 최적화하는 방법을 제시한다. 또한 NDMs에 대한 시간 연속적 형식을 도출하여, 표준 수치적 상미분방정식(ODE) 및 확률적 미분방정식(SDE) 해법기를 활용해 빠르고 신뢰할 수 있는 추론이 가능하게 한다. 마지막으로, CIFAR-10, ImageNet의 다운샘플링된 버전, CelebA-HQ와 같은 표준 이미지 생성 벤치마크에서 학습 가능한 변환을 갖춘 NDMs의 유용성을 실험을 통해 입증한다. 결과적으로 NDMs는 기존 확산 모델에 비해 우수한 우도 성능을 보이며, 고해상도의 품질 높은 샘플을 생성한다.