2ヶ月前
MasaCtrl: チューニングフリーの相互自己注意制御による一貫性のある画像合成と編集
Mingdeng Cao; Xintao Wang; Zhongang Qi; Ying Shan; Xiaohu Qie; Yinqiang Zheng

要約
大規模なテキストから画像の生成やテキスト条件付きの画像編集において成功を収めているものの、既存の手法は依然として一貫した生成と編集結果を達成するのに苦労しています。例えば、同じ物体やキャラクターの異なる視点やポーズを持つ複数の画像を合成する場合、生成手法はしばしば失敗します。一方、既存の編集手法は、全体的な質感や同一性を維持しながら効果的な複雑な非剛体編集を達成できないか、または画像特有の外観を捉えるために時間のかかる微調整が必要です。本論文では、MasaCtrlという微調整が不要な手法を開発し、一貫した画像生成と複雑な非剛体画像編集を同時に実現することを目指しました。具体的には、MasaCtrlは拡散モデルにおける既存の自己注意機構を相互自己注意に変換することで、一貫性のために元画像から関連する局所的なコンテンツと質感を照会することができます。さらに、前景と背景間での照会の混乱を緩和するために、クロスアテンションマップから簡単に抽出できるマスクを使用した相互自己注意戦略を提案しました。広範囲にわたる実験により、提案されたMasaCtrlが一貫した画像生成および複雑な非剛体実際の画像編集中で印象的な結果を生み出すことが示されました。