コンテキスト予測を用いた拡散ベース画像生成の改善

拡散モデル(Diffusion models)は、画質と多様性の面で前例のない水準を実現した、生成モデルの新しいクラスであり、画像生成の分野を大きく前進させています。既存の拡散モデルは、空間軸に沿ってピクセル単位または特徴量単位の制約のもとで、汚損された入力画像から元の画像を再構成することを目指しています。しかし、このような点ベースの再構成手法は、予測された各ピクセルまたは特徴量が周囲の文脈を十分に保持できず、拡散ベースの画像合成性能に悪影響を及ぼす可能性があります。一方で、文脈(context)は自動的な教師信号の強力な源として、表現学習において広く研究されてきました。この知見に着想を得て、本研究では初めて「ConPreDiff」を提案し、文脈予測を用いて拡散ベースの画像生成を向上させます。訓練段階では、拡散ノイズ除去ブロックの末端に文脈デコーダを導入し、各点がその周囲の文脈(すなわち、マルチストライドの特徴量/トークン/ピクセル)を明示的に予測するように強制します。推論段階ではこのデコーダを削除することで、サンプリングプロセスに追加パラメータを導入することなく、効率的な推論が可能になります。このアプローチにより、各点は周囲の文脈との意味的つながりを保持しつつ、より適切に自身を再構成することが可能になります。ConPreDiffのこの新たな枠組みは、任意の離散的・連続的拡散バックボーンに一般化可能であり、サンプリング時に追加パラメータを導入せずに適用可能です。無条件画像生成、テキストから画像生成、画像補完の各タスクにおいて、広範な実験を実施した結果、従来手法を一貫して上回り、MS-COCOデータセットにおけるテキストから画像生成タスクで新たなSOTA(最良の結果)を達成しました。ゼロショットFIDスコアは6.21を記録しました。