16日前

KV-Edit:正確な背景保持を実現するトレーニングフリー画像編集

Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
KV-Edit:正確な背景保持を実現するトレーニングフリー画像編集
要約

画像編集タスクにおいて、背景の一貫性(background consistency)の維持は依然として大きな課題である。これまでの多くの研究進展にもかかわらず、現存の手法は元画像との類似性を保ちつつ、ターゲットに合ったコンテンツを生成するという点で、依然としてトレードオフの問題を抱えている。本研究では、DiT(Diffusion Transformer)におけるKVキャッシュを活用し、背景のトークンを再生成せずに保持することで、背景の一貫性を維持する「KV-Edit」というトレーニング不要なアプローチを提案する。これにより、複雑な機構や高コストな学習プロセスを必要とせず、ユーザーが指定した領域内において、新しいコンテンツが背景と自然に統合された画像を生成することが可能となる。さらに、編集過程におけるKVキャッシュのメモリ消費量について検討し、再反転(inversion-free)な手法を用いて空間計算量をO(1)に最適化した。本手法は、追加の学習を必要とせず、任意のDiTベースの生成モデルと互換性を持つ。実験結果から、KV-Editは背景の質および画像全体の品質において、既存の手法を大きく上回り、さらにはトレーニングを伴う手法をも凌駕することが示された。プロジェクトページは以下のURLで公開されている:https://xilluill.github.io/projectpages/KV-Edit