Command Palette

Search for a command to run...

8日前

変分自己符号化器を用いない潜在拡散モデル

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

変分自己符号化器を用いない潜在拡散モデル

要約

近年、拡散型視覚生成の進展は、変分自己符号化器(VAE)を用いた潜在空間拡散モデルに大きく依存している。高精細な生成において有効である一方で、VAE+拡散モデルの枠組みは、訓練効率の低さ、推論速度の遅さ、さらには広範な視覚タスクへの汎用性の欠如といった課題を抱えている。これらの問題の根本原因は、VAEの潜在空間に内在する本質的な制約に起因する。すなわち、明確な意味的分離性と強固な判別構造が欠如している点である。我々の分析により、これらの性質は認識や理解といったタスクにとって重要であるだけでなく、潜在空間拡散モデルの安定的かつ効率的な学習にも不可欠であることが確認された。この知見を受けて、本研究では変分自己符号化器を一切用いない新しい潜在空間拡散モデル「SVG(Self-supervised VAE-free Generative model)」を提案する。SVGは自己教師学習による表現を活用し、視覚生成を実現する。具体的には、固定されたDINO特徴量を用いて意味的に明確に判別可能な特徴空間を構築し、微細な構造を捉えるための軽量な残差ブランチを併用することで、高精細な再構成を実現する。拡散モデルは、この意味的に構造化された潜在空間上で直接学習されるため、より効率的な学習が可能となる。その結果、SVGは拡散モデルの訓練を高速化し、少数ステップでのサンプリングを可能にするとともに、生成品質の向上を達成した。実験結果から、SVGは基盤となる自己教師学習表現が持つ意味的・判別的特性を良好に保持していることが示され、汎用的かつ高品質な視覚表現へと向かう原理的なアプローチを提供している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
変分自己符号化器を用いない潜在拡散モデル | 論文 | HyperAI超神経