2ヶ月前
Null-text Inversion for Editing Real Images using Guided Diffusion Models 実画像編集のためのガイド付き拡散モデルを使用したヌルテキスト逆転
Ron Mokady; Amir Hertz; Kfir Aberman; Yael Pritch; Daniel Cohen-Or

要約
最近のテキストガイダンス型拡散モデルは、強力な画像生成能力を提供しています。現在、これらの画像をテキストのみを使用して編集できるようにするための大きな努力が払われています。これは直感的で多様な編集手段を提供することを目指しています。本論文では、正確な逆変換技術を導入し、これにより画像の直感的なテキストベースの編集を容易にします。提案する逆変換には以下の2つの新規キー要素が含まれています:(i) 拡散モデル用の中核的逆変換(Pivotal inversion)。現行の方法はランダムノイズサンプルを単一の入力画像にマッピングすることを目指していますが、我々は各タイムスタンプに対して単一の中核的ノイズベクトルを使用し、その周辺での最適化を行います。直接的な逆変換だけでは不十分であることを示しつつ、それが我々の最適化にとって良い基点となることを確認しました。(ii) NULL-テキスト最適化。ここでは、分類器フリーガイダンスに使用される無条件のテキスト埋め込みのみを変更し、入力テキスト埋め込みは変更しません。これにより、モデルの重みと条件付き埋め込みを保持したまま、プロンプトに基づく編集を行うことが可能となり、モデルの重み調整という煩わしい作業を回避できます。公開されているStable Diffusionモデルに基づく我々のNULL-テキスト逆変換は、様々な画像やプロンプト編集に対して広範に評価され、実際の画像に対する高忠実度編集が可能であることが示されました。