2ヶ月前

ビジョンガイドとマスク強化型適応ノイズ除去によるプロンプトベース画像編集

Kejie Wang; Xuemeng Song; Meng Liu; Jin Yuan; Weili Guan
ビジョンガイドとマスク強化型適応ノイズ除去によるプロンプトベース画像編集
要約

テキストから画像へのディフュージョンモデルは、テキストプロンプトから高品質な画像を合成するという点で著しい進歩を遂げており、これによりターゲットプロンプトに基づいてソース画像を編集するプロンプトベースの画像編集に関する研究が促進されています。しかし、既存の手法は依然として3つの主要な課題に直面しています:1) テキストプロンプトが目標画像の生成をガイドする能力の制限、2) 単語とパッチ、およびパッチ間の関係性を十分に抽出できていないことによる編集領域の位置決めの不足、3) 各デノイジングステップにおける全領域に対する一元的な編集強度です。これらの課題に対処するために、我々はビジョンガイドおよびマスク強化型適応編集(ViMAEdit)手法を提案し、3つの主要な新規設計を取り入れています。まず、従来のテキストプロンプトベースのデノイジング過程を強化するために、画像埋め込みを使用した明示的なガイダンスの活用方法を提案します。ここでCLIPベースの目標画像埋め込み推定戦略が導入されます。次に、自己注意マップによって伝えられるパッチ間の関係性を利用し、クロス注意マップに含まれる単語とパッチの関係性を反復的に洗練する自己注意ガイドされた反復的編集領域位置決め戦略を開発しました。最後に、重要な画像領域に対してサンプリング分散を強調することで編集能力を向上させる空間適応型分散ガイダンスサンプリング手法を提示します。実験結果は、ViMAEditがすべての既存手法よりも優れた編集能力を持つことを示しています。