17일 전

다음 토큰을 넘어서: 자동회귀적 시각 생성을 위한 다음-X 예측

Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
다음 토큰을 넘어서: 자동회귀적 시각 생성을 위한 다음-X 예측
초록

자기회귀(AR, Autoregressive) 모델링은 다음 토큰 예측 파라다임으로 유명하며, 최첨단 언어 및 시각 생성 모델의 기반이 되고 있다. 전통적으로 '토큰'은 가장 작은 예측 단위로 간주되며, 언어에서는 보통 이산 기호, 시각에서는 양자화된 패치로 표현된다. 그러나 2차원 이미지 구조에 가장 적합한 토큰 정의는 여전히 미해결 과제이다. 더불어 AR 모델은 교사 강제(teacher forcing)를 훈련 과정에서 사용함으로써 추론 시 오류가 누적되는 노출 편향(Exposure Bias) 문제를 겪는다. 본 논문에서는 토큰의 개념을 일반화한 xAR라는 새로운 AR 프레임워크를 제안한다. 이 프레임워크는 개별 패치 토큰, 셀(이웃한 패치 k×k 그룹), 하위 샘플(거리가 먼 패치의 비국소적 그룹), 스케일(粗-細 해상도 전환), 또는 전체 이미지와 같은 다양한 실체(entity) X를 토큰으로 확장한다. 또한, 이산 토큰 분류를 연속적 실체 회귀로 재정의하여 각 AR 단계에서 흐름 매칭(flow-matching) 기법을 활용한다. 이 방법은 실제 토큰 대신 노이즈가 섞인 실체를 조건으로 훈련하여, 노이즈가 섞인 컨텍스트 학습(Noisy Context Learning)을 가능하게 하며, 이는 노출 편향을 효과적으로 완화한다. 결과적으로 xAR는 두 가지 주요 장점을 제공한다: (1) 다양한 맥락의 세부성과 공간 구조를 포착할 수 있는 유연한 예측 단위를 가능하게 하며, (2) 교사 강제에 의존하지 않음으로써 노출 편향을 완화한다. ImageNet-256 생성 벤치마크에서, 기본 모델인 xAR-B(172M)는 675M 파라미터를 가진 DiT-XL/SiT-XL보다 우수한 성능을 보이며, 추론 속도는 20배 빠르다. 또한 xAR-H는 기존 최고 성능 모델(예: DINOv2와 같은 비전 기초 모듈이나 고급 가이던스 간격 샘플링을 사용하지 않음)보다 2.2배 빠르게 작동하면서 FID 1.24의 새로운 최고 기록을 달성하여, 새로운 최첨단 성능을 확보하였다.