
초록
전통적인 통념에 따르면, 이미지 생성을 위한 자기회귀 모델은 일반적으로 벡터 양자화된 토큰을 동반한다. 그러나 우리는 이산값 공간이 범주형 분포를 표현하는 데 도움이 되긴 하지만, 자기회귀 모델링에 필수적인 것은 아니라는 점을 관찰하였다. 본 연구에서는 각 토큰의 확률 분포를 확산 절차(diffusion procedure)를 활용하여 모델링하는 방법을 제안한다. 이를 통해 자기회귀 모델을 이산이 아닌 연속값 공간에서 적용할 수 있다. 범주형 교차 엔트로피 손실 대신, 각 토큰 확률을 모델링하기 위해 '확산 손실(Diffusion Loss)' 함수를 정의하였다. 이 방법은 이산값 토크나이저의 필요성을 제거한다. 우리는 표준 자기회귀 모델과 일반화된 마스킹 자기회귀(MAR) 변형 모델을 포함한 다양한 사례에서 본 방법의 효과성을 평가하였다. 벡터 양자화를 제거함으로써, 본 이미지 생성기는 빠른 시퀀스 모델링의 장점을 누리면서도 뛰어난 성능을 달성하였다. 본 연구가 다른 연속값 영역 및 응용 분야에서 자기회귀 생성 기법의 활용을 촉진하기를 기대한다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/LTH14/mar.