17日前

トレイサテッド・ディフュージョン確率モデルとディフュージョンベースの対抗的オートエンコーダー

Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou
トレイサテッド・ディフュージョン確率モデルとディフュージョンベースの対抗的オートエンコーダー
要約

拡散過程を用いた生成モデルは、データをノイズ分布に徐々に写像する前向き拡散チェーンを用い、その逆方向の拡散チェーンを推論することでデータ生成の方法を学習する。しかし、このアプローチは前向きおよび逆向きのステップを多数必要とするため、計算が遅く、コストが高くなる。本研究では、データが完全なランダムノイズに達するまでノイズを加えるのではなく、信頼できる形で学習可能な「隠れたノイズ付きデータ分布」に達するまでノイズを加える、より高速かつ低コストなアプローチを提案する。その後、この隠れた分布(ノイズ付きデータと類似した分布)から出発し、少ない逆向きステップでデータを生成する。我々は、提案モデルが、拡散プロセスと学習可能な暗黙的事前分布(implicit prior)を統合した敵対的オートエンコーダー(adversarial auto-encoder)として定式化できることを明らかにした。実験結果から、逆向き拡散ステップ数を大幅に削減しても、無制限(non-truncated)モデルに比べて、無条件画像生成およびテキスト誘導型画像生成の両面において、一貫した性能向上が得られることを示した。

トレイサテッド・ディフュージョン確率モデルとディフュージョンベースの対抗的オートエンコーダー | 最新論文 | HyperAI超神経