확산 복원 가능도를 통한 에너지 기반 모델 학습

에너지 기반 모델(EBM)은 여러 바람직한 성질을 갖지만, 고차원 데이터셋에서의 학습과 샘플링은 여전히 도전 과제이다. 최근 확산 확률 모델의 발전에 영감을 받아, 데이터셋의 점점 더 노이즈가 강한 버전에 대해 훈련된 일련의 EBM에서 효율적으로 학습하고 샘플링할 수 있는 확산 복원 가능도(likelihood) 방법을 제안한다. 각각의 EBM은 복원 가능도를 통해 훈련되며, 이는 더 높은 노이즈 수준에서의 노이즈가 있는 버전이 주어졌을 때, 특정 노이즈 수준에서의 데이터 조건부 확률을 최대화하는 방식이다. 조건부 분포에서 샘플링하는 것은 마진 분포에서 샘플링하는 것보다 훨씬 쉬우므로, 복원 가능도를 최적화하는 것은 마진 가능도를 최적화하는 것보다 훨씬 더 실용적이다. 훈련이 완료된 후, 가우시안 화이트 노이즈 분포에서 시작하여 점차 낮아지는 노이즈 수준에서 조건부 분포를 반복적으로 샘플링하는 과정을 통해 합성 이미지를 생성할 수 있다. 본 방법은 다양한 이미지 데이터셋에서 높은 품질의 샘플을 생성할 수 있으며, 무조건적 CIFAR-10 데이터셋에서 FID 9.58, 인셉션 스코어 8.30을 달성하여 대부분의 GAN보다 우수한 성능을 보였다. 또한, 기존 EBM 연구와 달리, 본 연구에서 제안하는 장기적인 MCMC 샘플링은 조건부 분포에서 발산하지 않으며 여전히 현실적인 이미지를 잘 표현할 수 있어, 고차원 데이터셋에 대해서도 데이터의 정규화된 밀도를 정확히 추정할 수 있다. 본 연구의 구현 코드는 https://github.com/ruiqigao/recovery_likelihood 에서 공개되어 있다.