2ヶ月前
FastComposer: チューニングフリーの局所的注意を用いた多主題画像生成
Xiao, Guangxuan ; Yin, Tianwei ; Freeman, William T. ; Durand, Frédo ; Han, Song

要約
拡散モデルは、特にパーソナライズされた画像の生成において、テキストから画像への生成に優れています。しかし、既存の方法は主題ごとの微調整が計算量が多く、効率的な展開を妨げています。さらに、既存の方法は多主題生成に苦戦しており、しばしば主題間で特徴が混ざってしまう問題があります。本稿では、微調整なしで効率的かつパーソナライズされた多主題テキストから画像への生成を可能にするFastComposerを提案します。FastComposerは、画像エンコーダーによって抽出された主題埋め込みを使用して、拡散モデルの一般的なテキスト条件付けを強化し、主体画像と文章指示に基づくパーソナライズされた画像生成をフォワードパスのみで実現します。多主題生成における同一性混在問題に対処するため、FastComposerは訓練中にクロスアテンション局所化監督を提案しており、参照主題のアテンションが目標画像の正しい領域に局所化されるように制約しています。主題埋め込みに対して単純に条件付けを行うと過学習が発生します。FastComposerはデノイジングステップでの遅延主題条件付けを提案し、主体駆動型画像生成において同一性と編集可能性の両方を維持します。FastComposerは異なるスタイル、動作、コンテクストを持つ複数の未見個体の画像を生成でき、ファインチューニングベースの手法と比較して300倍〜2500倍の高速化を達成し、新しい主題には追加の保存領域が必要ありません。FastComposerは効率的で高品質な多主題画像作成への道を開きます。コード、モデルおよびデータセットは https://github.com/mit-han-lab/fastcomposer で利用可能です。