2ヶ月前

統合と征服:拡散モデルを使用したプラグアンドプレイマルチモーダル合成

Nair, Nithin Gopalakrishnan ; Bandara, Wele Gedara Chaminda ; Patel, Vishal M.
統合と征服:拡散モデルを使用したプラグアンドプレイマルチモーダル合成
要約

複数の制約を満たす写真の生成は、コンテンツ作成業界で広範な応用を見ています。この課題を達成するための主要な障壁は、すべてのモダリティ(つまり、制約)とそれに対応する出力からなるペアデータの必要性です。さらに、新しい条件を導入するには、既存の方法ではすべてのモダリティ間でペアデータを使用して再学習が必要です。本論文では、デノイジング拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPMs)に基づくこの問題への解決策を提案します。拡散モデルを選択した動機は、その柔軟な内部構造にあります。DDPMにおける各サンプリングステップがガウス分布に従うため、我々は様々な制約条件下での画像生成に対する閉形式解が存在することを示しています。我々の手法は、複数のサブタスクで訓練された複数の拡散モデルを統合し、提案されたサンプリング戦略を通じて組み合わせた課題を克服することができます。また、サンプリング時間のみで異なるデータセット上で訓練された市販の拡散モデルを使用して多様な制約条件を満たす所望の結果を得るための新たな信頼性パラメータも導入しています。我々はさまざまな標準的なマルチモーダル課題において実験を行い、手法の有効性を示しています。詳細については、以下のURLをご覧ください: https://nithin-gk.github.io/projectpages/Multidiff/index.html

統合と征服:拡散モデルを使用したプラグアンドプレイマルチモーダル合成 | 最新論文 | HyperAI超神経