5 天前
LazyDrag:通过显式对应关系实现多模态扩散Transformer上的稳定拖拽编辑
Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum

摘要
基于注意力机制的隐式点匹配在基于拖拽的图像编辑中已成为核心瓶颈,导致在重建强度减弱与高成本的测试时优化(Test-Time Optimization, TTO)之间产生根本性权衡。这一权衡严重限制了扩散模型的生成能力,抑制了高保真图像修复与文本引导生成的效果。本文提出LazyDrag,这是首个面向多模态扩散Transformer的拖拽式图像编辑方法,能够直接消除对隐式点匹配的依赖。具体而言,我们的方法从用户拖拽输入中生成一个显式的对应关系图(correspondence map),作为可靠的注意力控制参考。这一可靠参考为实现稳定、全强度的重建过程提供了可能,这在基于拖拽的编辑任务中尚属首次。该方法无需依赖TTO,从而充分释放了模型的生成潜力。因此,LazyDrag自然地实现了精确的几何控制与文本引导的统一,支持此前难以实现的复杂编辑操作:例如打开一只狗的嘴巴并修复其内部区域,生成新物体如“网球”,或针对模糊拖拽进行上下文感知的修改,如将手移入衣袋。此外,LazyDrag支持多轮编辑流程,并可同时执行移动与缩放操作。在DragBench基准上的评估结果表明,我们的方法在拖拽准确性与感知质量方面均优于现有基线方法,这一优势得到了VIEScore指标与人工评估的验证。LazyDrag不仅达到了新的最先进性能水平,更开辟了图像编辑范式的新路径。