17日前

Simpler Diffusion (SiD2):ピクセル空間における拡散を用いたImageNet512上でのFID 1.5

Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans
Simpler Diffusion (SiD2):ピクセル空間における拡散を用いたImageNet512上でのFID 1.5
要約

潜在拡散モデル(Latent diffusion models)は、高解像度画像合成における拡散モデルのスケーリングにおいて、現在最も一般的な選択肢となっている。ピクセル空間で学習されるエンドツーエンドのモデルと比較して、潜在空間モデルはより効率的であり、高解像度において高い画像品質を実現できると広く認識されている。しかし、本研究ではこうした認識に疑問を呈し、ピクセル空間モデルが潜在モデルと同等、あるいはそれ以上の性能を、品質および効率の両面で達成できることを示す。具体的には、ImageNet512では1.5のFIDを達成し、ImageNet128、ImageNet256、Kinetics600においても新たなSOTA(State-of-the-Art)結果を記録した。本研究では、エンドツーエンドのピクセル空間拡散モデルを高解像度にスケーリングするための単純な手法を提示する。具体的には以下の3つのステップを実施する:1)Kingma & Gao(2023)が提唱したシグモイド損失重み付け(sigmoid loss-weighting)を、我々が規定したハイパーパラメータとともに適用する。2)スキップ接続を削減した簡略化されたメモリ効率型アーキテクチャを採用する。3)低解像度で多くのパラメータを使用するのではなく、高解像度での処理を重視し、パラメータ数を抑えつつモデルをスケーリングする。これらの手法にガイダンス間隔(guidance intervals)を組み合わせることで、我々は「Simpler Diffusion(SiD2)」と呼ぶピクセル空間拡散モデルの族を構築した。

Simpler Diffusion (SiD2):ピクセル空間における拡散を用いたImageNet512上でのFID 1.5 | 最新論文 | HyperAI超神経