2ヶ月前

StyleDiffusion: テキストベース編集のためのプロンプト埋め込み逆転

Senmao Li; Joost van de Weijer; Taihang Hu; Fahad Shahbaz Khan; Qibin Hou; Yaxing Wang; Jian Yang; Ming-Ming Cheng
StyleDiffusion: テキストベース編集のためのプロンプト埋め込み逆転
要約

大規模な研究が、事前学習済み拡散モデルの驚異的な能力を画像編集に活用することに注がれています。これらの手法は、モデルの微調整や、事前学習済みモデルの潜在空間での画像逆変換を行います。しかし、これらには2つの問題があります:(1) 選択された領域では満足のいく結果が得られず、選択されていない領域で予期せぬ変化が生じる。(2) 入力画像内のすべての視覚的オブジェクトを含むテキストプロンプトの慎重な編集が必要です。これらの問題に対処するため、我々は2つの改善点を提案します:(1) 交差注意層における値線形ネットワークの入力のみを最適化することで、実際の画像を再構築するのに十分な力を発揮できます。(2) 注意正則化を提案し、再構築と編集後にオブジェクトのような注意マップを保つことで、大きな構造的な変更を引き起こすことなく正確なスタイル編集を行うことが可能になります。さらに、P2Pで使用される分類器なしガイダンスの無条件分岐に使用される編集技術も改良しました。多様な画像に対する広範な実験的なプロンプト編集結果から、定性的および定量的に我々の方法が既存および同時進行の研究よりも優れた編集能力を持つことが示されています。関連コードについては Stylediffusion(\url{https://github.com/sen-mao/StyleDiffusion})をご覧ください。

StyleDiffusion: テキストベース編集のためのプロンプト埋め込み逆転 | 最新論文 | HyperAI超神経