
要約
拡散モデル(Diffusion models)は、多くの生成タスクにおいて顕著な性能を示している。近年の成功にもかかわらず、大多数の拡散モデルはデータ分布に対する線形変換のみを許容するという制限がある。これに対し、より広範な変換族を用いることで、生成分布の学習をより効率的に行うことが可能となり、逆過程の簡素化および真の負対数尤度と変分近似との間のギャップの縮小が期待できる。本論文では、従来の拡散モデルの一般化として、時間依存の非線形変換を定義・学習可能とするニューラル拡散モデル(Neural Diffusion Models, NDMs)を提案する。我々は、シミュレーションを必要としない設定において、変分境界を用いたNDMsの最適化手法を示す。さらに、NDMsの時間連続的定式化を導出し、既存の数値ODE・SDEソルバーを用いて高速かつ信頼性の高い推論が可能となることを示す。最後に、CIFAR-10やImageNetのダウンサンプリング版、CelebA-HQといった標準的な画像生成ベンチマーク上での実験を通じて、学習可能な変換を有するNDMsの有効性を実証する。その結果、NDMsは従来の拡散モデルを上回る尤度性能を達成し、高品質なサンプルを生成することを確認した。