17日前

PaGoDA：低解像度の拡散教師から一ステップ生成器を段階的に成長させる手法

Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

論文の詳細を見る

要約

拡散モデル（diffusion model）は高次元のコンテンツ生成において優れた性能を発揮する一方で、特に学習段階において計算コストが非常に高くなるという課題がある。本研究では、3段階のプロセス——ダウンサンプリングされたデータ上で拡散モデルの学習、事前学習済み拡散モデルの知識蒸留（distillation）、段階的スーパーレゾリューション——を経由することで、学習コストを低減する新規なパイプライン「プログレッシブ成長型拡散オートエンコーダー（Progressive Growing of Diffusion Autoencoder, PaGoDA）」を提案する。提案手法により、8倍ダウンサンプリングされたデータ上で拡散モデルを学習する場合、学習コストを最大64倍まで削減できる。推論時には単一ステップで、ImageNetにおいて64×64から512×512までの全解像度およびテキストから画像生成（text-to-image）タスクにおいて、最先端の性能を達成している。PaGoDAのパイプラインは、潜在空間（latent space）上で直接適用可能であり、事前学習済みオートエンコーダーを備えた潜在拡散モデル（例：Stable Diffusion）に圧縮機能を追加する形で活用できる。実装コードは、https://github.com/sony/pagoda にて公開されている。