17日前

ノイズ除去拡散GANを用いた生成学習の三難問題への対処

Zhisheng Xiao, Karsten Kreis, Arash Vahdat
ノイズ除去拡散GANを用いた生成学習の三難問題への対処
要約

過去10年間で、多様な深層生成モデルが開発されてきた。しかし、これらのモデルは、高品質なサンプル生成、モードカバレッジ(多様性)、高速なサンプリングという3つの主要な要件を同時に満たすことにしばしば困難を抱えている。これらの要件がもたらす課題を、既存のモデルが互いに妥協を強いられるため、「生成学習の三重苦(generative learning trilemma)」と呼ぶ。特に、ノイズ除去拡散モデル(denoising diffusion models)は、優れたサンプル品質と多様性を示しているが、そのサンプリングが非常に計算コストが高いため、多くの実世界応用にはまだ適していない。本論文では、こうしたモデルにおける遅いサンプリングの根本的な原因が、ノイズ除去ステップにおけるガウス分布の仮定にあると主張する。この仮定は、小さなステップサイズに対してのみ正当化されるものであり、大きなステップサイズでは不適切である。大きなステップでノイズ除去を行うことを可能とし、結果として全体のノイズ除去ステップ数を削減するために、ノイズ除去分布を複雑な多モーダル分布でモデル化することを提案する。これにより、各ノイズ除去ステップを多モーダルな条件付きGANでモデル化する「ノイズ除去拡散GAN(denoising diffusion GANs)」を導入する。広範な評価を通じて、ノイズ除去拡散GANは、元の拡散モデルと同等のサンプル品質と多様性を達成しつつ、CIFAR-10データセット上で2000倍高速なサンプリングを実現することを示した。従来のGANと比較して、本モデルはより優れたモードカバレッジとサンプル多様性を示す。筆者らの知る限り、ノイズ除去拡散GANは、拡散モデルのサンプリングコストを実用的な応用が経済的に可能となる程度まで低減した初めてのモデルである。プロジェクトページおよびコードは、https://nvlabs.github.io/denoising-diffusion-gan で公開されている。