17일 전

랜덤화된 자회귀 시각 생성

Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
랜덤화된 자회귀 시각 생성
초록

이 논문은 시각적 생성을 위한 랜덤화된 자기회귀 모델링(Randomized AutoRegressive modeling, RAR)을 제안하며, 언어 모델링 프레임워크와 완전히 호환되면서도 이미지 생성 과제에서 새로운 최고 성능을 달성한다. 제안된 RAR는 매우 간단한 구조를 갖는다. 표준 자기회귀 학습 과정에서 다음 토큰 예측 목표를 사용하는 동안, 입력 시퀀스(일반적으로 래스터 형식으로 정렬된)가 확률 r에 따라 무작위로 재정렬되어 다양한 인자화 순서로 변환된다. 여기서 r은 학습 초기에 1로 시작하여 학습 과정 동안 선형적으로 0으로 감소한다. 이러한 안네일링 학습 전략은 모델이 모든 인자화 순서에 대해 기대 가능도를 최대화하도록 학습하게 하여, 양방향 문맥을 효과적으로 모델링할 수 있는 능력을 크게 향상시킨다. 특히 RAR는 자기회귀 모델링 프레임워크의 완전성을 유지함으로써 언어 모델링 프레임워크와의 호환성을 보장하면서도 이미지 생성 성능을 크게 개선한다. ImageNet-256 벤치마크에서 RAR는 FID 점수 1.48을 달성하여 기존 최고 성능을 기록한 자기회귀 이미지 생성 모델을 넘어설 뿐 아니라, 선도적인 확산 기반 및 마스킹 트랜스포머 기반 방법들 역시 압도한다. 코드와 모델은 https://github.com/bytedance/1d-tokenizer 에 공개될 예정이다.