
要約
現在、高解像度画像のピクセル空間において拡散モデル(diffusion models)を適用することは困難である。そのため、既存の手法は低次元空間(潜在空間)における拡散(latent diffusion)に焦点を当てているか、複数のスーパーレゾリューション段階を経る「カスケード(cascade)」構造を採用している。しかし、これらのアプローチには拡散フレームワークに追加の複雑性をもたらすという欠点がある。本論文は、高解像度画像に対するノイズ除去拡散モデルの性能を向上させつつ、モデル構造をできるだけ単純に保つことを目的としている。中心的な研究課題は以下の通りである:高解像度画像上で標準的なノイズ除去拡散モデルを学習するにはどうすればよいか? その上で、代替的手法と同等の性能を達成できるか?本研究の主な4つの発見は以下の通りである:1)高解像度画像に対してはノイズスケジュール(noise schedule)を調整する必要がある;2)アーキテクチャの特定の部分のみをスケーリングすれば十分である;3)アーキテクチャ内の特定の位置にドロップアウト(dropout)を導入することが有効である;4)ダウンサンプリングは高解像度の特徴マップを回避する有効な戦略である。これらの単純ながら効果的な技術を組み合わせることで、ImageNet上でサンプリング修正(sampling modifiers)を用いない拡散モデルにおいて、最先端(state-of-the-art)の画像生成性能を達成した。