2ヶ月前
高解像度画像合成のための潜在拡散モデル
Rombach, Robin ; Blattmann, Andreas ; Lorenz, Dominik ; Esser, Patrick ; Ommer, Björn

要約
画像形成プロセスをデノイジングオートエンコーダの逐次適用に分解することにより、拡散モデル(Diffusion Models: DMs)は画像データをはじめとする分野で最先端の合成結果を達成しています。さらに、これらのモデルの定式化は、再学習を行うことなく画像生成プロセスを制御するためのガイドメカニズムを可能にしています。しかし、これらのモデルが通常ピクセル空間で直接動作するため、強力なDMの最適化には数百GPU日の消費が必要であり、推論も逐次評価のために高コストとなっています。限られた計算リソースでのDM訓練を可能としながら、その品質と柔軟性を維持するために、我々は強力な事前学習済みオートエンコーダの潜在空間でこれらを使用します。従来の研究とは異なり、このような表現上の拡散モデルの訓練は初めて複雑さの削減と詳細の保存との間でほぼ最適なバランス点に到達し、視覚的な忠実度が大幅に向上します。モデルアーキテクチャにクロスアテンション層を導入することで、テキストやバウンディングボックスなどの一般的な条件入力に対する強力かつ柔軟なジェネレータとして拡散モデルを利用することが可能となり、高解像度合成も畳み込み方式で実現できます。我々の潜在拡散モデル(Latent Diffusion Models: LDMs)は画像補完において新しい最先端性能を達成し、無条件画像生成や意味的シーン合成、超解像など様々なタスクでも非常に競争力のあるパフォーマンスを示しています。これはピクセルベースのDMと比較して計算要件が大幅に削減されているにもかかわらずです。コードは https://github.com/CompVis/latent-diffusion で利用可能です。