
초록
우리는 가우시안 확산 모델에서의 예측-수정 샘플러(predictor-corrector samplers)를 이산 공간으로 확장한 이산 예측-수정 확산 모델(Discrete Predictor-Corrector diffusion models, DPC)을 제안한다. 예측-수정 샘플러는 중간 확산 상태의 샘플링 분포를 MCMC 방법을 이용해 보정함으로써 전통적인 조상 샘플러(ancestral samplers)보다 성능을 개선하는 확산 모델의 샘플링 기법이다. DPC에서는 이산 공간에서 직접적인 대응이 없는 랑주뱅(Langevin) 보정기(Langevin corrector)를, 학습된 보정 커널(정확한 보정 커널)에 의해 정의된 이산 MCMC 전이 과정으로 대체한다. 이 보정 커널은 중간 확산 상태의 올바른 주변 분포로 점근적으로 수렴하도록 보정 단계를 학습한다. DPC를 도입함으로써, 최근의 트랜스포머 기반 비자율 생성 모델들을 이산 확산 모델의 관점에서 재검토한 결과, 시각적 토큰의 병렬 샘플링으로 인한 누적 디코딩 오류를 효과적으로 완화함을 확인하였다. 실험 결과, DPC는 ImageNet에서 클래스 조건부 이미지 생성을 위한 기존의 이산 잠재 공간 모델을 개선하며, 표준 평가 지표와 사용자 선호도 조사에서 연속 확산 모델과 GAN보다 우수한 성능을 보였다.