20日前

自己教師あり事前学習を活用したエンドツーエンド型ピクセル空間生成モデリングの進展

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

要約

ピクセル空間における生成モデルは、通常、潜在空間におけるモデルと比較して訓練が難しく、性能面でも劣ることが多い。その結果、性能および効率のギャップが長年残されてきた。本論文では、ピクセル空間における拡散モデルおよび一貫性モデルに対して、このギャップを解消する新たな二段階訓練フレームワークを提案する。第一段階では、事前学習されたエンコーダを用いて、クリーンな画像から意味のある意味情報を抽出するとともに、事前分布からデータ分布へと変化する決定論的サンプリング軌道上の点とその整合性を保つように学習する。第二段階では、ランダムに初期化されたデコーダとエンコーダを統合し、拡散モデルおよび一貫性モデルの両方について、モデル全体をエンドツーエンドで微調整する。本研究で提案する訓練フレームワークは、ImageNetデータセットにおいて優れた実証的性能を示した。具体的には、拡散モデルはImageNet-256において75回の関数評価（NFE）でFID 2.04、ImageNet-512ではFID 2.35を達成し、生成品質および効率の両面で従来のピクセル空間手法を大きく上回り、同等の訓練コストで最先端のVAEベースモデルと同等の性能を発揮した。さらに、ImageNet-256において、一貫性モデルは1ステップのサンプリングでFID 8.82を達成し、潜在空間モデルと比較して顕著な性能向上を示した。本研究の知見によれば、これは、事前学習済みのVAEや拡散モデルに依存せずに、高解像度画像上で一貫性モデルを初めて成功裏に訓練した初の例である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

自己教師あり事前学習を活用したエンドツーエンド型ピクセル空間生成モデリングの進展

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

要約

AI で AI を構築

Hyper Newsletters