13日前

ベクトル量子化による画像モデリング:改良されたVQGAN

Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu
ベクトル量子化による画像モデリング:改良されたVQGAN
要約

大規模なテキストコーパス上で次トークン予測による事前学習を行うことで、生成的および判別的言語タスクにおいて、ゼロショット、フェイショット、転移学習、マルチタスク学習の能力が顕著に向上している。この成功に触発され、本研究では、ラスタライズされた画像トークンを自己回帰的に予測するようにTransformerを事前学習する「ベクトル量子化画像モデリング(Vector-quantized Image Modeling: VIM)」アプローチを提案する。この手法では、学習されたVision TransformerベースのVQGAN(ViT-VQGAN)により、画像トークンを離散化して符号化する。まず、アーキテクチャからコードブック学習に至るまで、従来のVQGANに対して複数の改善を提案し、より高い効率性と再構成忠実度を実現した。改善されたViT-VQGANは、無条件画像生成、クラス条件付き画像生成、無教師表現学習といった、ベクトル量子化画像モデリングタスクの性能をさらに向上させた。ImageNetを256×256解像度で学習させた結果、インセプションスコア(IS)は175.1、フレシェインセプション距離(FID)は4.17を達成し、従来のVQGAN(IS: 70.6、FID: 17.04)と比べて劇的な改善が確認された。さらに、ViT-VQGANと無教師事前学習に基づき、Image GPT(iGPT)と同様に中間特徴量の平均を用いて事前学習されたTransformerの性能を評価した。ImageNetで事前学習されたVIM-Lは、同程度のモデルサイズにおいて、線形プローブ精度をiGPT-Lの60.3%から73.2%まで向上させ、顕著な性能向上を示した。また、より大きなモデルサイズと追加のウェブ画像データで学習されたiGPT-XLに対しても、VIM-Lは優れた性能を発揮した。

ベクトル量子化による画像モデリング:改良されたVQGAN | 最新論文 | HyperAI超神経