HyperAIHyperAI

Command Palette

Search for a command to run...

DiffuseVAE:低次元潜在空間からの効率的で制御可能かつ高忠実度な生成

Kushagra Pandey Avideep Mukherjee Piyush Rai Abhishek Kumar

概要

拡散確率モデル(Diffusion probabilistic models)は、複数の競争的な画像合成ベンチマークにおいて最先端の性能を示しているが、低次元かつ解釈可能な潜在空間を備えておらず、生成速度も遅いという課題がある。一方、従来の変分自己符号化器(Variational Autoencoders, VAEs)は低次元の潜在空間を有するものの、生成サンプルの品質は劣ることが多い。本研究では、VAEを拡散モデルの枠組み内に統合した新しい生成フレームワーク「DiffuseVAE」を提案する。このアプローチにより、拡散モデルに新たな条件付きパラメータ化方式を設計し、結果として拡散モデルが低次元のVAE由来の潜在コードを獲得できるようにした。この潜在コードは、制御可能な画像合成を含む下流タスクに活用可能である。提案手法は、標準的な無条件DDPM/DDIMモデルが示す速度と品質のトレードオフを改善しており(CelebA-HQ-128ベンチマークにおいて、T=10の逆過程ステップでFIDスコアが34.36から16.47に向上)、明示的な最適化を施さずにその性能を達成している。さらに、CIFAR-10やCelebA-64といった標準的な画像合成ベンチマークにおいて、最先端モデルと同等の生成品質を実現しつつ、既存の多くのVAEベース手法を上回っている。最後に、本手法が条件信号における異なる種類のノイズに対して内在的な汎化能力を有することも示した。再現性を確保するため、本研究のソースコードはGitHubにて公開されており、https://github.com/kpandey008/DiffuseVAE から入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DiffuseVAE:低次元潜在空間からの効率的で制御可能かつ高忠実度な生成 | 記事 | HyperAI超神経