트랜스포머의 잠재력을 극대화하기 위한 병렬 토큰 예측: 벡터 양자화 코드로부터 고해상도 이미지 생성을 위한 이산 흡수 확산 기법

확산 확률 모델은 고품질의 이미지 콘텐츠 생성이 가능하지만, 고해상도 이미지 생성 능력과 그에 수반되는 높은 계산 비용이라는 핵심적인 한계가 여전히 존재한다. 최근 제안된 벡터 양자화(VQ) 이미지 모델은 해상도 제한 문제를 극복했으나, 사전 분포로부터 원소별 순차적 자동회귀 샘플링을 통해 토큰을 생성하기 때문에 매우 느리고 단방향적인 성질을 지닌다. 반면 본 논문에서는, 제약 없는 Transformer 아키텍처를 백본으로 사용하여 벡터 양자화 토큰을 병렬적으로 예측할 수 있는 새로운 이산 확산 확률 모델 사전을 제안한다. 학습 과정에서 토큰들은 순서에 무관하게 무작위로 마스킹되며, Transformer는 원래의 토큰을 복원하도록 학습한다. 이와 같은 벡터 양자화 토큰 예측의 병렬성은 계산 비용의 일부만으로도 전역적으로 일관된 고해상도 및 다양한 이미지를 무조건적으로 생성하는 데 기여한다. 이러한 방식으로, 기존 학습 데이터 샘플보다 높은 해상도의 이미지를 생성할 수 있으며, 생성된 각 이미지에 대해 확률 밀도 추정치(생성적 적대 신경망 기법과는 달리)를 제공할 수 있다. 제안하는 방법은 밀도(Density) 측면에서 최신 기준을 달성하며, LSUN Bedroom: 1.51, LSUN Churches: 1.12, FFHQ: 1.20의 성능을 기록하였고, 커버리지(Coverage)에서도 LSUN Bedroom: 0.83, LSUN Churches: 0.73, FFHQ: 0.80의 우수한 성과를 보였다. 또한 FID 지표에서도 경쟁력 있는 성능을 나타내었으며, LSUN Bedroom: 3.64, LSUN Churches: 4.07, FFHQ: 6.11의 결과를 달성하였고, 계산 효율성과 학습 데이터셋 요구량 감소라는 측면에서 유리한 특징을 지닌다.