17일 전

텍스트에서 이미지 생성을 위한 벡터 양자화 확산 모델

Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo
텍스트에서 이미지 생성을 위한 벡터 양자화 확산 모델
초록

텍스트에서 이미지 생성을 위한 벡터 양자화 확산(VQ-Diffusion) 모델을 제안한다. 본 방법은 최근 개발된 노이즈 제거 확산 확률 모델(DDPM)의 조건부 변형을 사용하여 잠재 공간을 모델링하는 벡터 양자화 변분 오토인코더(VQ-VAE)를 기반으로 한다. 우리는 이러한 잠재 공간 기반 방법이 기존 방법들에 비해 단방향 편향을 제거할 뿐만 아니라, 오류 누적이라는 기존 방법에서 심각한 문제로 지적되는 현상을 방지하기 위해 마스크 및 교체 확산 전략을 도입할 수 있다는 점에서 텍스트에서 이미지 생성 작업에 매우 적합하다는 것을 발견했다. 실험 결과, 유사한 파라미터 수를 가진 기존의 순차적 생성(AR) 모델과 비교했을 때 VQ-Diffusion은 훨씬 우수한 텍스트-이미지 생성 성능을 보였다. 이전의 GAN 기반 텍스트-이미지 생성 방법과 비교했을 때, 본 VQ-Diffusion 모델은 더 복잡한 장면을 처리할 수 있으며, 합성 이미지의 품질을 크게 향상시킬 수 있었다. 마지막으로, 재매개변수화(reparameterization) 기법을 통해 본 방법의 이미지 생성 계산을 매우 효율적으로 만들 수 있음을 보였다. 기존의 AR 방법에서는 이미지 생성 시간이 출력 이미지 해상도에 비례하여 선형 증가하므로, 일반 크기의 이미지 생성에도 상당한 시간이 소요된다. 반면 VQ-Diffusion은 품질과 속도 사이의 균형을 훨씬 더 우수하게 달성할 수 있다. 실험 결과, 재매개변수화 기법을 적용한 VQ-Diffusion 모델은 기존 AR 방법보다 15배 빠르면서도 더 높은 이미지 품질을 달성함을 확인하였다.