D-AR: 自回帰モデルを用いた拡散

本論文では、画像拡散過程を標準的な次のトークン予測の形式で単純な自己回帰手順として再構築する新しいパラダイムである拡散自己回帰モデル(Diffusion via Autoregressive models: D-AR)を提案します。まず、画像を離散的なトークンのシーケンスに変換するトークナイザーの設計から始めます。ここで、異なる位置にあるトークンはピクセル空間における異なる拡散デノイジングステップに復号化することができます。拡散の特性により、これらのトークンは自然と粗いものから細かいものへと順序付けられ、これにより自己回帰モデリングが直接適用可能となります。したがって、因果マスクや学習/推論戦略などの基本設計を変更することなく、これらのトークンに対して標準的な次のトークン予測を行います。このような逐次的な自己回帰トークン生成は、画像空間での拡散プロセスを直接反映します。つまり、自己回帰モデルがトークンの増分を生成すると、それらのトークンをストリーミング方式で対応する拡散デノイジングステップに直接復号化することができます。当手法はいくつかの興味深い特性を自然と示しており、例えば一部のトークンのみを生成する場合でも一貫したプレビューをサポートし、ゼロショットでのレイアウト制御合成も可能となっています。標準的なImageNetベンチマークにおいて、当手法は775M Llamaバックボーンを使用して256個の離散的なトークンで2.09 FID(Fréchet Inception Distance)を達成しました。私たちは本研究が視覚合成における統合された自己回帰アーキテクチャに関する今後の研究、特に大規模言語モデルとの組み合わせでの研究にインスピレーションを与えることを期待しています。コードとモデルは https://github.com/showlab/D-AR で公開されます。