16일 전

벡터 양자화 이미지 모델링: 개선된 VQGAN

Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu
벡터 양자화 이미지 모델링: 개선된 VQGAN
초록

거대한 텍스트 코퍼스에서 다음 토큰 예측을 통한 사전 훈련은 생성형 및 판별형 언어 작업 모두에서 놀라운 제로샷, 희소샷, 전이 학습 및 다중 작업 능력을 제공해 왔다. 이러한 성공에 영감을 받아, 우리는 래스터화된 이미지 토큰을 자기회귀적으로 예측하도록 Transformer를 사전 훈련하는 벡터 양자화 이미지 모델링(ViM) 방법을 탐구한다. 이 과정에서 이산 이미지 토큰은 학습된 비전 트랜스포머 기반의 VQGAN(ViT-VQGAN)을 통해 인코딩된다. 먼저, 아키텍처부터 코드북 학습에 이르기까지 기존 VQGAN에 대한 다수의 개선 사항을 제안하여 보다 높은 효율성과 재구성 정확도를 달성하였다. 개선된 ViT-VQGAN은 무조건적 및 클래스 조건부 이미지 생성, 비지도 표현 학습 등 벡터 양자화 이미지 모델링 작업에서 더욱 우수한 성능을 보였다. ImageNet 데이터셋을 (256\times256) 해상도에서 훈련한 결과, Inception Score(IS)는 175.1, Fréchet Inception Distance(FID)는 4.17을 기록하였으며, 기존 VQGAN의 70.6과 17.04에 비해 획기적인 향상이 이루어졌다. ViT-VQGAN과 비지도 사전 훈련 기반으로, Image GPT(iGPT)와 유사하게 중간 특징을 평균화하여 사전 훈련된 Transformer의 성능을 평가하였다. 이와 같은 설정에서 ImageNet으로 사전 훈련된 VIM-L은 유사한 모델 크기 기준으로 선형 프로브 정확도를 60.3%에서 73.2%로 향상시켜 iGPT-L을 압도하였으며, 더 큰 모델 크기와 추가 웹 이미지 데이터를 활용해 훈련된 iGPT-XL보다도 우수한 성능을 나타냈다.

벡터 양자화 이미지 모델링: 개선된 VQGAN | 최신 연구 논문 | HyperAI초신경