Command Palette
Search for a command to run...
Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

要約
ピクセル空間における生成モデルは、通常、潜在空間におけるモデルと比較して訓練が難しく、性能面でも劣ることが多い。その結果、性能および効率のギャップが長年残されてきた。本論文では、ピクセル空間における拡散モデルおよび一貫性モデルに対して、このギャップを解消する新たな二段階訓練フレームワークを提案する。第一段階では、事前学習されたエンコーダを用いて、クリーンな画像から意味のある意味情報を抽出するとともに、事前分布からデータ分布へと変化する決定論的サンプリング軌道上の点とその整合性を保つように学習する。第二段階では、ランダムに初期化されたデコーダとエンコーダを統合し、拡散モデルおよび一貫性モデルの両方について、モデル全体をエンドツーエンドで微調整する。本研究で提案する訓練フレームワークは、ImageNetデータセットにおいて優れた実証的性能を示した。具体的には、拡散モデルはImageNet-256において75回の関数評価(NFE)でFID 2.04、ImageNet-512ではFID 2.35を達成し、生成品質および効率の両面で従来のピクセル空間手法を大きく上回り、同等の訓練コストで最先端のVAEベースモデルと同等の性能を発揮した。さらに、ImageNet-256において、一貫性モデルは1ステップのサンプリングでFID 8.82を達成し、潜在空間モデルと比較して顕著な性能向上を示した。本研究の知見によれば、これは、事前学習済みのVAEや拡散モデルに依存せずに、高解像度画像上で一貫性モデルを初めて成功裏に訓練した初の例である。