11일 전

확장 가능한 이미지 토큰화: 인덱스 역전파 양자화를 이용한 방법

Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang
확장 가능한 이미지 토큰화: 인덱스 역전파 양자화를 이용한 방법
초록

기존의 벡터 양자화(VQ) 방법은 훈련 중 부분적인 업데이트를 겪는 코드북의 불안정성으로 인해 확장성에 어려움을 겪는다. 코드북은 활성화되지 않은 코드와 시각적 특징 간의 분포 간격이 점점 커짐에 따라 사용률이 감소함에 따라 붕괴되기 쉬운 특성을 지닌다. 이 문제를 해결하기 위해 우리는 모든 코드북 임베딩과 시각 인코더의 공동 최적화를 가능하게 하는 새로운 VQ 방법인 Index Backpropagation Quantization(IBQ)을 제안한다. 인코딩된 특징과 코드북 사이의 one-hot 범주형 분포에 직통 추정기(straight-through estimator)를 적용함으로써, 모든 코드가 미분 가능해지고 시각 인코더와 일관된 잠재 공간을 유지할 수 있다. IBQ는 시각 토크나이저의 확장 가능한 훈련을 가능하게 하며, 처음으로 고차원(256차원)이고 대규모 코드북(2¹⁸)을 고도로 활용하는 성능을 달성한다. 표준 ImageNet 벤치마크에서의 실험을 통해 IBQ의 확장성과 우수성을 입증하였으며, 재구성 및 자기회귀적 시각 생성 응용 분야에서 경쟁력 있는 성능을 보였다. 코드와 모델은 https://github.com/TencentARC/SEED-Voken 에서 공개되어 있다.

확장 가능한 이미지 토큰화: 인덱스 역전파 양자화를 이용한 방법 | 최신 연구 논문 | HyperAI초신경