HyperAI초신경

D-AR: 확산을 통한 자기회귀 모델

Gao, Ziteng ; Shou, Mike Zheng
발행일: 6/1/2025
D-AR: 확산을 통한 자기회귀 모델
초록

이 논문은 이미지 확산 과정을 표준적인 다음 토큰 예측 방식의 단순 자기회귀 절차로 재구성하는 새로운 패러다임인 확산을 통한 자기회귀 모델(Diffusion via Autoregressive models, D-AR)을 제시합니다. 우리는 먼저 이미지를 이산 토큰 시퀀스로 변환하는 토크나이저를 설계합니다. 여기서 서로 다른 위치의 토큰들은 픽셀 공간에서 서로 다른 확산 노이즈 제거 단계로 디코딩될 수 있습니다. 확산의 특성 덕분에 이러한 토큰들은 자연스럽게 거칠기부터 세밀하게 순서대로 배열되며, 이는 바로 자기회귀 모델링에 적합합니다. 따라서, 우리는 기존 설계(인과 마스크 또는 학습/추론 전략)를 수정하지 않고 이러한 토큰들에 대한 표준적인 다음 토큰 예측을 적용하며, 이러한 순차적 자기회귀 토큰 생성은 이미지 공간에서의 확산 과정을 직접적으로 반영합니다. 즉, 자기회귀 모델이 토큰 증가량을 생성하면, 우리는 이를 스트리밍 방식으로 해당 확산 노이즈 제거 단계로 직접 디코딩할 수 있습니다. 우리의 파이프라인은 부분적인 토큰만 생성할 때 일관된 미리보기를 지원하고, 사전 학습되지 않은 레이아웃 제어 합성을 가능하게 하는 등 몇 가지 흥미로운 특성을 자연스럽게 드러냅니다. 표준 ImageNet 벤치마크에서 우리의 방법은 7억 7천 5백만 개 파라미터를 가진 Llama 백본과 256개 이산 토큰을 사용하여 2.09의 FID(Fréchet Inception Distance) 값을 달성했습니다. 우리는 본 연구가 특히 대형 언어 모델을 활용한 시각적 합성의 통합된 자기회귀 아키텍처에 관한 미래 연구를 촉진하기를 바랍니다. 코드와 모델은 https://github.com/showlab/D-AR 에서 제공될 예정입니다.