17日前

学習された適応型ノイズを有する拡散モデル

Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov
学習された適応型ノイズを有する拡散モデル
要約

拡散モデルは、高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。これらのアルゴリズムの中心となるのは、データをノイズにマッピングする拡散プロセスであり、そのプロセスはモデルの性能に顕著な影響を与える。本論文では、拡散プロセスがデータから学習可能かどうかを検討する。本研究はベイズ推論に基づき、学習された拡散プロセスを近似的な変分事後分布として定式化することで、尤度の下界(ELBO)をより緊密に抑え、対数尤度推定を改善することを目指している。従来の見解として広く受け入れられていたのは、ELBOがノイズプロセスの選択に依存しないという仮定であるが、本研究はこの仮定を覆し、画像内の異なる領域に異なる速度でノイズを適用する多変量学習型適応ノイズ(Multivariate Learned Adaptive Noise, MULAN)を提案する。具体的には、ELBOがノイズスケジュールの選択に依存しないという従来の仮定を打破するため、データに依存する多変量ノイズスケジュールを導入している。実験的に、MULANはCIFAR-10およびImageNetにおける密度推定タスクで新たな最先端性能を達成し、学習ステップ数を50%削減した。プロジェクトページでは、コードの公開に加え、ブログ記事および動画チュートリアルも提供されている:https://s-sahoo.com/MuLAN

学習された適応型ノイズを有する拡散モデル | 最新論文 | HyperAI超神経