
画像量子化の分野において、VQGANを代表とする手法は、事前に定義されたサイズを持つコードブックから離散的なトークンに画像を符号化するプロセスを実行する。近年、LLAMA 3をはじめとする新たな進展により、コードブックの拡大がモデル性能の顕著な向上をもたらすことが明らかになった。しかし、VQGANおよびその派生手法であるVQGAN-FC(Factorized Codes)やVQGAN-EMAは、コードブックサイズの拡大およびコードブック利用効率の向上という課題に依然として直面している。例えば、VQGAN-FCは最大16,384のコードブックサイズに制限されており、ImageNet上での通常の利用効率は12%未満にとどまっている。本研究では、大規模コードブックを実現する新たな画像量子化モデル「VQGAN-LC(Large Codebook)」を提案する。本モデルはコードブックサイズを10万にまで拡張し、利用効率は99%を超えることを達成した。従来の手法が個々のコードブックエントリの最適化に焦点を当てるのに対し、本手法は事前学習済みの視覚エンコーダによって抽出された10万の特徴量を初期コードブックとして用いる。その後の最適化は、VQGAN-LCにおけるエンコーダの特徴分布と全体として一致するように、コードブック全体を調整するためのプロジェクタを学習することに集中する。我々は、画像再構成、画像分類、GPTを用いた自己回帰型画像生成、および拡散モデルおよびフローに基づく生成モデルを用いた画像生成という多様なタスクにおいて、本モデルが従来手法を上回る優れた性能を発揮することを実証した。コードおよびモデルは、https://github.com/zh460045050/VQGAN-LC にて公開されている。