HyperAIHyperAI

Command Palette

Search for a command to run...

SpotEdit:扩散Transformer中的选择性区域编辑

Zhibin Qin Zhenxiong Tan Zeqing Wang Songhua Liu Xinchao Wang

Abstract

扩散Transformer模型通过编码条件图像并将其融入Transformer层,显著推动了图像编辑技术的发展。然而,大多数编辑操作仅涉及图像中局部区域的修改,而现有方法在每个时间步均对所有token进行统一的处理与去噪,导致计算冗余,并可能对未修改区域造成质量下降。这引发了一个根本性问题:在图像编辑过程中,是否真的需要重新生成每一个区域?为解决这一问题,我们提出SpotEdit——一种无需训练的扩散编辑框架,能够仅对修改区域进行选择性更新。SpotEdit包含两个核心组件:SpotSelector通过感知相似性识别出稳定的区域,并通过复用条件图像特征跳过其计算;SpotFusion则通过动态融合机制,自适应地将这些特征与已编辑的token相结合,从而保持上下文一致性与编辑质量。通过减少不必要的计算,并在未修改区域维持高保真度,SpotEdit实现了高效且精准的图像编辑。

一句话总结

新加坡国立大学与上海交通大学的研究人员提出 SpotEdit,一种基于扩散 Transformer 的选择性区域编辑方法,通过隔离并重新生成特定区域实现精确图像操作,其新颖的注意力引导掩码机制在保持全局一致性的同时实现细粒度控制,优于先前方法。

主要贡献

  • 大多数图像编辑任务仅需修改小范围区域,但现有基于扩散的方法对整张图像均匀去噪,导致冗余计算,并在未修改区域产生潜在伪影。
  • SpotEdit 引入 SpotSelector,通过重建图像潜变量与条件图像潜变量之间的感知相似性,动态识别稳定且未编辑的区域,无需手动掩码。
  • SpotFusion 自适应融合条件图像特征与已编辑标记,保持上下文一致性,在 PIE-Bench++ 上实现高达 1.9× 的加速,同时保持高编辑质量和保真度。

引言

扩散 Transformer(DiT)模型通过将条件图像直接集成到 Transformer 层中,实现了强大的无掩码图像编辑能力,支持灵活的语义修改。然而,现有方法在每个时间步对所有区域进行均匀去噪,即使仅需修改小范围区域——这导致计算浪费,并在未修改区域引入潜在伪影。这种低效源于缺乏区域感知处理,尽管未编辑区域通常在扩散过程早期即趋于稳定。本文提出 SpotEdit,一种无需训练的框架,仅对修改区域进行选择性编辑。该框架引入 SpotSelector,利用重建图像与条件图像潜变量之间的感知相似性动态识别稳定区域;同时提出 SpotFusion,一种上下文感知机制,自适应融合参考特征以保持一致性。通过跳过未修改区域的计算并集中资源于编辑部分,SpotEdit 在基准数据集上实现高达 1.9× 的加速,同时保持高视觉保真度,并消除对手动掩码的需求。

方法

作者采用修正流(Rectified Flow)框架,通过假设源分布与目标分布之间为线性插值来简化生成建模。该公式定义了一个由常微分方程决定的确定性流,其中速度场 vθ(Xt,C,t)v_\theta(X_t, C, t)vθ(Xt,C,t) 控制从初始噪声 X1X_1X1 到最终图像 X0X_0X0 的变换过程。推理时,模型沿时间反向积分该方程,由包含参考图像和编辑指令的条件 CCC 引导。所提出的 SpotEdit 框架核心是一个两部分机制,旨在高效跳过未编辑区域的冗余计算,同时保留高保真背景细节。

整体流程如框架图所示,包含三个阶段。初始阶段,模型在编辑指令下对所有图像标记执行标准 DiT 去噪,同时缓存 Key-Value(KV)值以供后续使用。随后进入 Spot 步骤,SpotSelector 利用感知得分动态识别需重生成和未编辑区域的标记。未编辑区域的标记跳过 DiT 计算,而需重生成的标记则通过 SpotFusion 迭代生成。SpotFusion 通过融合缓存的未编辑区域 KV 值与条件图像 KV 值,构建时间一致的条件缓存。最终阶段为标记替换,重生成的标记通过 DiT 更新,未编辑标记则直接由对应复用标记覆盖,再解码为图像,从而在减少计算量的同时确保背景保真度。

SpotSelector 模块解决了识别哪些标记需要修改的挑战。它利用修正流的特性,可在任意时间步 tit_iti 闭式重建完全去噪的潜变量状态 X^0\hat{X}_0X^0。通过将此早期重建与条件图像潜变量 YYY 比较,模块可判断哪些区域已稳定。为获得与人类感知一致的相似性度量,该模块引入一种受 LPIPS 启发的标记级感知得分,基于 VAE 解码器激活计算。该得分定义为 sLPIPS(i)=lLwlϕ^l(X^0)iϕ^l(Y)i22s_{\text{LPIPS}}(i) = \sum_{l \in \mathcal{L}} w_l \left| \hat{\phi}_l(\hat{X}_0)_i - \hat{\phi}_l(Y)_i \right|_2^2sLPIPS(i)=lLwlϕ^l(X^0)iϕ^l(Y)i22,将早期解码器特征差异映射为标记级感知差异。通过阈值 τ\tauτ,模块定义二元路由指示 rt,ir_{t,i}rt,i,将标记分类为重生成集 At\mathcal{A}_tAt 和未编辑集 Rt\mathcal{R}_tRtRt\mathcal{R}_tRt 中的标记从 DiT 计算中移除,而 At\mathcal{A}_tAt 中的标记则进行完整的去噪更新。

SpotFusion 模块解决了因移除未编辑标记而引发的上下文退化问题。它提出一种时间一致的特征复用机制,将缓存的未编辑特征与参考图像特征自适应融合。该模块首先缓存参考分支和未编辑区域标记的 KV 对。为避免与不断演化的重生成标记产生时间错配,SpotFusion 在每个块和时间步平滑地将缓存特征向参考特征插值。未编辑标记的更新隐藏状态为 h~x(b,t)=α(t)h~x(b,t+1)+(1α(t))hy(b)\tilde{h}_x^{(b,t)} = \alpha(t) \tilde{h}_x^{(b,t+1)} + (1 - \alpha(t)) h_y^{(b)}h~x(b,t)=α(t)h~x(b,t+1)+(1α(t))hy(b),其中 α(t)=cos2(π2t)\alpha(t) = \cos^2(\frac{\pi}{2}t)α(t)=cos2(2πt)。该插值直接应用于 KV 对,确保重生成标记的上下文信号保持一致且时间连贯。

作者分析了未编辑区域隐藏状态的时间行为,观察到未编辑标记与条件图像标记的轨迹在去噪过程中逐渐收敛至同一潜空间。这一收敛表明未编辑区域平滑地向条件图像演化,具备可一致强化的特征表示。这一洞察推动了 SpotFusion 的设计,避免了静态 KV 缓存带来的时间漂移与上下文错配问题。框架进一步采用部分注意力计算,仅重生成标记和指令提示标记作为活跃查询。完整的 Key-Value 集通过将活跃查询与未编辑区域和条件图像区域的缓存特征拼接而成,使 DiT 能以少量查询执行注意力操作,同时保留完整空间上下文。

实验

  • SpotEdit 通过在 imgEdit-Benchmark 和 PIE-Bench++ 上的实验验证了其在编辑保真度与计算效率之间的平衡能力。在 imgEdit-Benchmark 上,其达到 1.67× 加速,同时保持原始推理质量;在 PIE-Bench++ 上,实现 1.95× 加速,PSNR 达 18.73,SSIMc 达 0.792,各项质量指标均优于所有基线方法。
  • SpotEdit 在 imgEdit-Benchmark 上取得最高 VL 得分(3.77),在 Replace(4.41)和 Compose(2.65)等复杂任务中表现优异,仅比原始推理略有下降(-0.14),展现出强大的语义对齐与结构一致性。
  • 消融实验确认了 Token Fusion(自适应融合)、Condition Cache(缓存条件与未编辑特征)和 Reset 机制(周期性刷新以防止误差累积)的必要性,各组件均显著提升保真度与稳定性。
  • 在 Qwen-Image-Edit 上应用 SpotEdit 时,背景保真度近乎完美(imgEdit 上 PSNR +0.01,DISTS -0.01),同时在 PIE-Bench++ 上性能提升(PSNR +1.08,SSIMc +0.03),并实现 1.72× 加速。
  • 与 TeaCache 和 TaylorSeer 等基于缓存的方法集成后,系统保持稳定并进一步提升效率,未降低质量,验证了其兼容性与鲁棒性。

结果表明,SpotEdit 在编辑质量与计算效率之间实现了良好权衡,在 imgEdit-Benchmark 上达到 1.67× 加速,且编辑质量与原始推理结果相当或略优。在 PIE-Bench++ 上,SpotEdit 保持高结构一致性(PSNR 18.73,SSIMc 0.792),质量全面超越所有基线,同时实现 1.95× 加速。

作者采用重置机制以在去噪过程中维持数值稳定性,结果表明禁用该机制虽使加速提升至 2.25×,但 PSNR 下降 1.6 dB,DISTS 上升 0.018,表明周期性重置对保持编辑质量至关重要。

结果表明,SpotEdit 在 imgEdit-Benchmark 上实现 4.28× 加速,同时保持高编辑质量,CLIP 与 SSIM 得分接近原始推理。该方法在速度与质量上均优于 TeaCache 和 TaylorSeer 等基于缓存的基线,证明了对编辑区域的有效计算分配。

结果表明,若在 SpotEdit 中移除条件缓存,加速从 1.95× 降至 1.24×,而 PSNR 从 18.73 略升至 19.15。这表明缓存条件图像对效率至关重要,且不会显著损害视觉质量。

结果表明,SpotEdit 在 imgEdit-Benchmark 上取得最高平均 VL 得分 3.77,全面超越各基线方法,尤其在 Replace 和 Compose 等复杂指令任务中表现突出。该方法有效保留未编辑区域,表现为优异的背景保真度与与原始推理的极小偏差,同时实现 1.67× 推理加速。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供