
要約
テキストガイダンス型拡散モデルは、画像生成と編集の分野で革命を起こし、卓越した現実感と多様性を提供しています。特に、ターゲットプロンプトに従ってソース画像を編集する拡散ベースの編集において、このプロセスはソース画像に対応するノイジーラテンベクトルを拡散モデルを通じて取得することから始まります。その後、このベクトルは別々のソースおよびターゲットの拡散ブランチに供給されて編集されます。この逆変換プロセスの精度は最終的な編集結果に大きく影響を与え、ソース画像の本質的なコンテンツ保存とターゲットプロンプトに基づく編集忠実度の両方に影響します。以前の逆変換手法では、ソースとターゲットの両方の拡散ブランチで統一された解決策を見つけることが目的でした。しかし、我々の理論的および経験的分析では、これらのブランチを分離することで本質的なコンテンツ保存と編集忠実度の責任が明確に区分されることを示しています。この洞察に基づいて、「ダイレクトインバージョン」(Direct Inversion)という新しい手法を提案します。この手法はわずか3行のコードで両ブランチの最適な性能を達成します。画像編集性能を評価するために、700枚の画像で多様なシーンや編集タイプを展示し、多彩なアノテーションと包括的な評価指標を伴う新しいベンチマーク「PIE-Bench」を提示します。最先端の最適化ベースの逆変換手法と比較して、当手法は8つの編集方法すべてにおいて優れた性能を発揮するとともに、処理速度もほぼ1桁速くなることを確認しました。