16일 전
잔차 양자화를 이용한 자기회귀 이미지 생성
Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han

초록
고해상도 이미지의 자동회귀(AR) 모델링을 위한 벡터 양자화(VQ)는 이미지를 이산 코드의 시퀀스로 표현한다. AR 모델이 코드 간 장거리 상호작용을 고려할 때 계산 비용을 줄이기 위해 짧은 시퀀스 길이가 중요하다. 그러나 기존의 VQ는 비율-왜곡(trade-off) 측면에서 코드 시퀀스를 단축시키면서도 고정밀도 이미지를 생성하는 데 한계가 있다고 주장한다. 본 연구에서는 고해상도 이미지를 효과적으로 생성하기 위해, 잔차 양자화 VAE(RQ-VAE)와 RQ-Transformer로 구성된 이단계 프레임워크를 제안한다. 고정된 코드북 크기를 가정할 때, RQ-VAE는 이미지의 특징 맵을 정밀하게 근사하고, 이 이미지를 이산 코드의 스택 맵으로 표현할 수 있다. 이후 RQ-Transformer는 다음 위치의 양자화된 특징 벡터를 예측하기 위해 다음 스택의 코드를 예측한다. RQ-VAE의 정밀한 근사 덕분에, 256×256 해상도의 이미지를 8×8 해상도의 특징 맵으로 표현할 수 있으며, 이로 인해 RQ-Transformer는 계산 비용을 효율적으로 줄일 수 있다. 결과적으로, 본 프레임워크는 무조건적 및 조건부 이미지 생성에 대한 다양한 벤치마크에서 기존의 AR 모델들을 능가한다. 또한, 고품질 이미지를 생성하는 데 있어 이전 AR 모델들보다 훨씬 빠른 샘플링 속도를 보인다.