2ヶ月前

自然言語を使用した反転なし画像編集

Sihan Xu; Yidong Huang; Jiayi Pan; Ziqiao Ma; Joyce Chai
自然言語を使用した反転なし画像編集
要約

最近の逆転に基づく編集技術の進歩にもかかわらず、テキストガイダンスによる画像操作は拡散モデルにとって依然として困難な課題となっています。主なボトルネックは以下の通りです。1) 逆転プロセスの時間のかかる性質;2) 一貫性と精度のバランスを取ることが難しいこと;3) 一貫性モデルで使用される効率的な一貫性サンプリング方法との互換性が欠けていることです。これらの問題に対処するために、まず逆転プロセスを編集中に省略できるかどうかを考えました。初期サンプルが既知である場合、特別な分散スケジュールを使用することで、デノイジングステップを多段階の一貫性サンプリングと同じ形式に簡素化できることを示しました。これをデノイジング拡散一貫性モデル(Denoising Diffusion Consistent Model, DDCM)と名付け、これはサンプリング中に明示的な逆転を行わずに仮想的な逆転戦略を暗示することを指摘しています。さらに、テキストガイダンス編集のために調整不要のフレームワーク内で注意制御メカニズムを統合しました。これらを組み合わせて、逆転不要編集(Inversion-free Editing, InfEdit)を提案します。InfEditは、剛体変形と非剛体変形の両方の意味論的変更に対して一貫性と忠実さを持つ編集を可能にし、複雑な修正も画像の整合性や明示的な逆転を損なうことなく行えます。広範囲にわたる実験を通じて、InfEditは様々な編集タスクにおいて優れた性能を示し、またシームレスなワークフロー(単一のA40上で3秒未満)を維持しており、リアルタイムアプリケーションへの適用可能性を示しています。プロジェクトページ: https://sled-group.github.io/InfEdit/