
확산 모델(Diffusion Models, DMs)은 이미지 생성 및 기타 분야에서 큰 성공을 거두었다. 잘 훈련된 스코어 모델을 기반으로 한 SDE/ODE 솔버가 정의하는 경로를 정밀하게 샘플링함으로써, DMs는 뛰어난 고화질 결과를 생성할 수 있다. 그러나 이러한 정밀한 샘플링은 종종 다수의 단계를 필요로 하며 계산적으로 비효율적이다. 이 문제를 해결하기 위해, 더 복잡한 교사 모델(teacher model)을 단순한 학습 모델(student model)이 모방하도록 하여 단일 단계(generator)를 추출하는 인스턴스 기반 정제(instance-based distillation) 기법이 제안되었다. 그러나 본 연구에서는 이러한 기법에 내재된 한계를 밝혀냈다. 교사 모델은 더 많은 단계와 더 많은 파라미터를 가지며, 학습 모델과는 다른 국소 최적값(local minima)에 위치하게 되어, 학습 모델이 교사 모델을 모방하려 할 때 성능이 최적화되지 않는다는 점이다. 이를 해결하기 위해, 독점적인 분포 손실(distributional loss)을 사용하는 새로운 분포 정제(distributional distillation) 방법을 제안한다. 이 방법은 상대적으로 적은 수의 훈련 이미지로도 최신 기준(SOTA) 성능을 초과하며, 뛰어난 효율성을 보인다. 또한, DM의 레이어들이 시간 단계에 따라 다르게 활성화됨을 보여주며, 이는 단일 단계에서 이미지를 생성할 수 있는 본질적인 능력을 암시한다. 분포 정제 과정에서 DM의 대부분의 합성곱 레이어를 고정(freeze)함으로써 이 내재된 능력을 발휘할 수 있으며, 이는 성능 향상으로 이어진다. 본 방법은 CIFAR-10(FID 1.54), AFHQv2 64x64(FID 1.23), FFHQ 64x64(FID 0.85), ImageNet 64x64(FID 1.16)에서 SOTA 성능을 달성하였으며, 매우 높은 효율성을 보였다. 이들 대부분의 결과는 8개의 A100 GPU에서 6시간 내에 500만 장의 훈련 이미지만으로 달성되었다.