画像自己回帰モデルの潜在空間を安定化する:統一的な視点

潜在ベースの画像生成モデル、例えば潜在拡散モデル(Latent Diffusion Models: LDMs)やマスク画像モデル(Mask Image Models: MIMs)は、画像生成タスクにおいて著しい成功を収めています。これらのモデルは通常、VQGANやVAEなどの再構築オートエンコーダーを使用してピクセルをよりコンパクトな潜在空間にエンコードし、直接ピクセルからではなく、潜在空間でのデータ分布を学習します。しかし、この手法には重要な疑問が生じます:それは本当に最適な選択でしょうか?これに対する答えとして、私たちは興味深い観察から始めます:同じ潜在空間を共有しているにもかかわらず、自己回帰型モデルはLDMsやMIMsに比べて画像生成で大きく遅れをとっています。この結果はNLP分野とは対照的であり、NLPでは自己回帰型モデルのGPTが圧倒的な存在感を示しています。この乖離に対処するために、我々は潜在空間と生成モデルの関係に関する統一的な視点を導入し、画像生成モデリングにおける潜在空間の安定性に焦点を当てます。さらに、単純ながら効果的な離散画像トークナイザーを提案し、画像生成モデリングのための潜在空間の安定化を目指します。実験結果によると、当社のトークナイザー(DiGIT)を使用した画像自己回帰モデリングは、次のトークン予測原理により画像理解と画像生成の両方に利点があり、これはGPTモデルにとって本質的に簡単ですが他の生成モデルにとっては困難です。特に注目に値するのは、初めてGPTスタイルの自己回帰型モデルが画像に対してLDMsを上回ったことです。また、モデルサイズを拡大することでGPTと同様に大幅な改善が見られました。私たちの研究結果は、最適化された潜在空間と離散トークナイゼーションの統合が画像生成モデルの能力向上に寄与する可能性があることを強調しています。コードは https://github.com/DAMO-NLP-SG/DiGIT で公開されています。