3ヶ月前

DiffuseVAE：低次元潜在空間からの効率的で制御可能かつ高忠実度な生成

Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar

要約

拡散確率モデル（Diffusion probabilistic models）は、複数の競争的な画像合成ベンチマークにおいて最先端の性能を示しているが、低次元かつ解釈可能な潜在空間を備えておらず、生成速度も遅いという課題がある。一方、従来の変分自己符号化器（Variational Autoencoders, VAEs）は低次元の潜在空間を有するものの、生成サンプルの品質は劣ることが多い。本研究では、VAEを拡散モデルの枠組み内に統合した新しい生成フレームワーク「DiffuseVAE」を提案する。このアプローチにより、拡散モデルに新たな条件付きパラメータ化方式を設計し、結果として拡散モデルが低次元のVAE由来の潜在コードを獲得できるようにした。この潜在コードは、制御可能な画像合成を含む下流タスクに活用可能である。提案手法は、標準的な無条件DDPM/DDIMモデルが示す速度と品質のトレードオフを改善しており（CelebA-HQ-128ベンチマークにおいて、T=10の逆過程ステップでFIDスコアが34.36から16.47に向上）、明示的な最適化を施さずにその性能を達成している。さらに、CIFAR-10やCelebA-64といった標準的な画像合成ベンチマークにおいて、最先端モデルと同等の生成品質を実現しつつ、既存の多くのVAEベース手法を上回っている。最後に、本手法が条件信号における異なる種類のノイズに対して内在的な汎化能力を有することも示した。再現性を確保するため、本研究のソースコードはGitHubにて公開されており、https://github.com/kpandey008/DiffuseVAE から入手可能である。