텍스트에서 이미지 생성을 위한 벡터 양자화 확산 모델

텍스트에서 이미지 생성을 위한 벡터 양자화 확산(VQ-Diffusion) 모델을 제안한다. 본 방법은 최근 개발된 노이즈 제거 확산 확률 모델(DDPM)의 조건부 변형을 사용하여 잠재 공간을 모델링하는 벡터 양자화 변분 오토인코더(VQ-VAE)를 기반으로 한다. 우리는 이러한 잠재 공간 기반 방법이 기존 방법들에 비해 단방향 편향을 제거할 뿐만 아니라, 오류 누적이라는 기존 방법에서 심각한 문제로 지적되는 현상을 방지하기 위해 마스크 및 교체 확산 전략을 도입할 수 있다는 점에서 텍스트에서 이미지 생성 작업에 매우 적합하다는 것을 발견했다. 실험 결과, 유사한 파라미터 수를 가진 기존의 순차적 생성(AR) 모델과 비교했을 때 VQ-Diffusion은 훨씬 우수한 텍스트-이미지 생성 성능을 보였다. 이전의 GAN 기반 텍스트-이미지 생성 방법과 비교했을 때, 본 VQ-Diffusion 모델은 더 복잡한 장면을 처리할 수 있으며, 합성 이미지의 품질을 크게 향상시킬 수 있었다. 마지막으로, 재매개변수화(reparameterization) 기법을 통해 본 방법의 이미지 생성 계산을 매우 효율적으로 만들 수 있음을 보였다. 기존의 AR 방법에서는 이미지 생성 시간이 출력 이미지 해상도에 비례하여 선형 증가하므로, 일반 크기의 이미지 생성에도 상당한 시간이 소요된다. 반면 VQ-Diffusion은 품질과 속도 사이의 균형을 훨씬 더 우수하게 달성할 수 있다. 실험 결과, 재매개변수화 기법을 적용한 VQ-Diffusion 모델은 기존 AR 방법보다 15배 빠르면서도 더 높은 이미지 품질을 달성함을 확인하였다.