LazyDrag:明示的対応関係を用いたマルチモーダル拡散トランスフォーマーにおける安定なドラッグベース編集の実現

アテンションを用いた暗黙的な点対応に依存する仕組みは、ドラッグベースの画像編集において中心的なボトルネックとなっており、逆問題の強度が弱まり、テスト時最適化(TTO)に大きなコストがかかるという根本的な妥協をもたらしている。この妥協は、拡散モデルの生成能力を著しく制限し、高忠実度のインペインティングやテキスト誘導型の生成を抑制する結果となっている。本論文では、マルチモーダル拡散トランスフォーマー向けに、初めてドラッグベースの画像編集手法であるLazyDragを提案する。本手法は、暗黙的な点対応への依存を直接排除するものであり、ユーザーのドラッグ入力から明示的な対応マップを生成することで、アテンション制御を強化する信頼性の高い参照情報を得る。この信頼性の高い参照情報により、安定した全強度の逆問題プロセスが可能となり、これはドラッグベース編集タスクにおいて初の実現である。これによりTTOの必要性が不要となり、モデルの生成能力が解放される。したがって、LazyDragは、正確な幾何学的制御とテキスト誘導を自然に統合し、従来は実現が困難だった複雑な編集を可能にする:犬の口を開けることやその内部をインペインティングする、新しいオブジェクト(例:「テニスボール」)を生成する、あるいは曖昧なドラッグに対して文脈に応じた変更(例:手をポケットに入れる)を行うことができる。さらに、LazyDragは、同時進行の移動およびスケーリング操作を可能とする複数ラウンドのワークフローをサポートする。DragBenchにおける評価において、VIEScoreおよび人間評価を通じて検証された結果、本手法はベースラインに対してドラッグ精度および知覚的品質において優れた性能を発揮した。LazyDragは、新たなSOTA(最先端)の性能を確立するだけでなく、画像編集のパラダイムに新たな道を開くものである。