2ヶ月前

クロスアテンション制御を用いたプロンプト間画像編集

Amir Hertz; Ron Mokady; Jay Tenenbaum; Kfir Aberman; Yael Pritch; Daniel Cohen-Or
クロスアテンション制御を用いたプロンプト間画像編集
要約

最近、大規模なテキスト駆動型合成モデルが、与えられたテキストプロンプトに従って非常に多様な画像を生成するという驚異的な能力により、多くの注目を集めています。このようなテキストベースの合成手法は、自分の意図を言葉で表現することに慣れている人間にとって特に魅力的です。したがって、テキスト駆動型画像合成をテキスト駆動型画像編集へと拡張することは当然の流れです。これらの生成モデルでの編集は困難であり、その理由として編集技術の本質的な特性は元の画像の大部分を保つことですが、テキストベースのモデルではプロンプトの小さな変更でも全く異なる結果につながることがあります。最先端の手法では、ユーザーに空間マスクを提供して編集範囲を局所化させることでこの問題に対処していますが、これによりマスクされた領域内の元の構造やコンテンツが無視されてしまいます。本論文では、直感的なプロンプトからプロンプトへの編集フレームワークを目指し、編集はテキストのみによって制御されるものとします。この目的のために、テキスト条件付きモデルを詳細に分析し、クロスアテンション層が各単語と画像の空間配置との関係を制御する鍵であることを観察しました。この観察に基づいて、テキストプロンプトのみを編集することで画像合成を監視するいくつかのアプリケーションを提案します。これには単語置換による局所編集、仕様追加による全体的な編集、さらには単語が画像に反映される程度を微妙に制御することも含まれます。私たちは多様な画像とプロンプトに対して結果を提示し、高品質な合成と編集されたプロンプトへの忠実性を示しています。

クロスアテンション制御を用いたプロンプト間画像編集 | 最新論文 | HyperAI超神経