VQGAN의 코드북 크기를 100,000으로 확장하면서 이용률을 99%로 유지하기

이미지 양자화 분야에서 VQGAN을 대표로 하듯, 이 과정은 사전에 정해진 크기를 갖는 코드북에서 추출된 이산 토큰으로 이미지를 인코딩한다. 최근 LLAMA 3과 같은 기술의 발전을 통해 코드북을 확대하면 모델 성능이 크게 향상됨이 밝혀졌다. 그러나 VQGAN 및 그 유사 모델인 VQGAN-FC(Factorized Codes)와 VQGAN-EMA는 코드북 크기 확장과 코드북 활용도 향상 측면에서 여전히 도전 과제를 안고 있다. 예를 들어, VQGAN-FC는 최대 16,384개의 코드북을 학습할 수 있으며, ImageNet 기준으로 일반적으로 코드북 활용률이 12% 미만에 그친다. 본 연구에서는 코드북 크기를 100,000까지 확장하여 활용률이 99%를 초과하는 새로운 이미지 양자화 모델인 VQGAN-LC(Large Codebook)를 제안한다. 기존 방법이 각 코드북 항목을 개별적으로 최적화하는 방식과 달리, 본 연구의 접근법은 사전에 훈련된 비전 인코더를 통해 추출한 100,000개의 특징으로 초기화된 코드북을 기반으로 한다. 이후 최적화는 전체 코드북이 인코더의 특징 분포와 일치하도록 하는 프로젝터를 학습하는 데 집중한다. 다양한 작업에서 본 모델이 기존 대안들보다 뛰어난 성능을 보임을 입증하였으며, 이미지 재구성, 이미지 분류, GPT 기반의 자기회귀적 이미지 생성, 그리고 확산 및 흐름 기반 생성 모델을 이용한 이미지 생성 등 다양한 시나리오에서 검증되었다. 코드 및 모델은 https://github.com/zh460045050/VQGAN-LC 에서 공개된다.