HyperAIHyperAI

Command Palette

Search for a command to run...

PaGoDA:低解像度の拡散教師から一ステップ生成器を段階的に成長させる手法

Dongjun Kim Chieh-Hsin Lai Wei-Hsiang Liao Yuhta Takida Naoki Murata Toshimitsu Uesaka Yuki Mitsufuji Stefano Ermon

概要

拡散モデル(diffusion model)は高次元のコンテンツ生成において優れた性能を発揮する一方で、特に学習段階において計算コストが非常に高くなるという課題がある。本研究では、3段階のプロセス——ダウンサンプリングされたデータ上で拡散モデルの学習、事前学習済み拡散モデルの知識蒸留(distillation)、段階的スーパーレゾリューション——を経由することで、学習コストを低減する新規なパイプライン「プログレッシブ成長型拡散オートエンコーダー(Progressive Growing of Diffusion Autoencoder, PaGoDA)」を提案する。提案手法により、8倍ダウンサンプリングされたデータ上で拡散モデルを学習する場合、学習コストを最大64倍まで削減できる。推論時には単一ステップで、ImageNetにおいて64×64から512×512までの全解像度およびテキストから画像生成(text-to-image)タスクにおいて、最先端の性能を達成している。PaGoDAのパイプラインは、潜在空間(latent space)上で直接適用可能であり、事前学習済みオートエンコーダーを備えた潜在拡散モデル(例:Stable Diffusion)に圧縮機能を追加する形で活用できる。実装コードは、https://github.com/sony/pagoda にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています