HyperAIHyperAI

Command Palette

Search for a command to run...

ChordEdit:一种面向图像编辑的单步低能耗传输方法

Liangsi Lu Xuhang Chen Minzhe Guo Shichu Li Jingchao Wang Yang Shi

摘要

一步文本到图像(Text-to-Image, T2I)模型的问世带来了前所未有的合成速度。然而,将其应用于文本引导的图像编辑仍面临严重阻碍:直接将现有的无训练编辑器强行压缩至单次推理步骤中会导致失败。这种失败表现为严重的物体扭曲以及非编辑区域一致性的关键性丢失,其根源在于对模型的结构化场进行朴素的向量运算所产生的高能量、不稳定的轨迹。为解决这一问题,我们提出了 ChordEdit,这是一种模型无关、无需训练且无需反演的(inversion-free)方法,旨在实现高保真的一步编辑。我们将编辑过程重新定义为由源文本提示和目标文本提示所定义的源分布与目标分布之间的传输问题。借助动态最优传输理论,我们推导出了一套原则性的低能量控制策略。该策略生成了一种平滑且方差降低的编辑场,具有内在稳定性,从而使得通过单个较大的积分步长穿越该场成为可能。ChordEdit 是一种基于理论支撑并经实验验证的方法,能够提供快速、轻量且精准的编辑,最终在这些极具挑战性的模型上实现了真正的实时编辑。

一句话总结

ChordEdit 是一种与模型无关、无需训练且无需反演的单步文本引导图像编辑方法,它利用动态最优传输理论将编辑重构为源分布与目标分布之间的传输问题,推导出一种低能量控制策略,从而产生稳定的编辑场以进行单步积分,实现快速、精确的实时编辑,同时避免物体失真或非编辑区域的一致性丢失。

核心贡献

  • ChordEdit 被引入为一种与模型无关、无需训练且无需反演的方​​法,促进文本到图像模型的高保真单步编辑。该方法在具有挑战性的单步机制内运行,避免了朴素向量算术相关的严重物体失真和一致性丢失。
  • 编辑被重构为源分布与目标分布之间的传输问题,利用动态最优传输理论推导出一种原则性的低能量控制策略。该策略产生一个平滑的、方差减少的编辑场,直接在可观察残差域中构建,其稳定性足以通过单个大积分步长进行遍历。
  • 实验验证确认该方法提供快速、轻量且精确的编辑,同时在具有挑战性的模型上实现真正的实时编辑。四项盲用户研究表明 ChordEdit 在语义对齐方面以 42.5% 获胜,在保留质量方面以 48.3% 获胜,证明了其卓越的整体性能。

引言

单步文本到图像模型实现了实时合成,产生了对快速文本引导图像编辑的需求。现有的无需训练编辑器在此机制中失败,因为朴素向量算术创建不稳定的控制场,扭曲物体并破坏背景一致性,而基于训练的替代方案通过需要专用的反演网络牺牲了灵活性。ChordEdit 被引入,这是一种与模型无关的方法,将编辑重构为动态最优传输问题以推导稳定的 Chord 控制场。该方法取代了不稳定的向量算术,实现了无需训练或反演的精确单步编辑。

数据集

  • 研究在 PIE-bench 基准上进行了实证评估,这是基于指令的图像编辑的标准数据集。
  • 数据集包含分布在 10 个不同编辑类别中的 700 个样本。
  • 每个实例提供源图像、文本提示以及精确界定编辑区域的真值掩码。
  • 图像标准化为 512×512512 \times 512512×512 的分辨率。
  • 性能沿两个轴评估:背景保真度和语义对齐。
  • 背景保真度使用在非编辑区域上计算的峰值信噪比和均方误差进行量化。
  • 语义对齐通过 CLIP-Whole 和 CLIP-Edited 分数测量,以评估文本 - 视觉一致性。
  • 为了公平比较背景保真度,所有方法均在未使用内部或外部保护掩码的情况下进行评估。

方法

通过重新在条件概率流上下文中重构问题,解决了单步扩散模型中图像编辑的挑战。预训练的文本到图像模型诱导具有漂移 v(xt,t,c)v(x_t, t, c)v(xt,t,c) 的条件概率流,由常微分方程定义:

dxtdt=v(xt,t,c).\frac { d x _ { t } } { d t } = v ( x _ { t } , t , c ) .dtdxt=v(xt,t,c).

给定源提示 csrcc_{\text{src}}csrc 和目标提示 ctarc_{\text{tar}}ctar,目标是将初始图像 xsrcx_{\text{src}}xsrc 传输到编辑图像 xtarx_{\text{tar}}xtar。理想情况下,这是通过修改源流与瞬时残差来实现的:

Δv(xt,t) = v(xt,t,ctar)v(xt,t,csrc).\Delta v ( x _ { t } , t ) \ = \ v ( x _ { t } , t , c _ { \mathrm { t a r } } ) - v ( x _ { t } , t , c _ { \mathrm { s r c } } ) .Δv(xt,t) = v(xt,t,ctar)v(xt,t,csrc).

虽然这种简单的漂移策略适用于可以多步迭代纠正错误的多步生成,但在单步设置中会灾难性地失败。在蒸馏模型中,朴素场 Δv(xt,t)\Delta v(x_t, t)Δv(xt,t) 通常是高能量且不规则的。使用此场进行单个积分步长会累积显著误差,导致生成的图像显著偏离目标。

如下方图所示:

该图对比了三种编辑范式。面板 (a) 说明常规多步编辑,其中漂移的迭代应用确保稳定的轨迹。面板 (b) 演示朴素单步简单漂移的失败,其中不规则的底层路径导致较差的最终结果。面板 (c) 描绘了提出的 ChordEdit 方法,该方法推导出稳定、低能量的 Chord 控制场以促进准确的单步传输。

为了实现这种稳定性,ChordEdit 将编辑场视为估计问题。由于理想场未知,研究基于模型在噪声状态下的输出定义了一个可观察代理场 R(xτ,t)\mathbf{R}(x_\tau, t)R(xτ,t)。该可观察量充当真实编辑向量场 utu_tut 的噪声测量。为了解决该朴素代理的不稳定性,研究通过最小化凸二次代理来推导局部平滑估计器 u^t\hat{u}_tu^t,该代理平衡递归能量先验与新测量的一致性。

通过应用一阶因果近似,实际 Chord 控制场计算为时间 ttt 和先前时间步 tδt - \deltatδ 处可观察场的加权平均:

u^t(xτ)  =  tR(xτ,tδ)+δR(xτ,t)t+δ  .\hat { u } _ { t } ( x _ { \tau } ) \; = \; \frac { t \, { \bf R } ( x _ { \tau } , t - \delta ) + \delta \, { \bf R } ( x _ { \tau } , t ) } { t + \delta } \; .u^t(xτ)=t+δtR(xτ,tδ)+δR(xτ,t).

该公式有效地充当朴素场的因果单侧核平滑。理论上,这种平均通过充当 L2L^2L2-收缩提供关键的数值稳定性,从而抑制高能量尖峰。此外,它收紧了显式欧拉积分的一致性代理,从而减少局部截断误差,并确保单步的全局误差界限最小化。

完整的 ChordEdit 算法操作如下。首先,使用时间 ttttδt-\deltatδ 处的可观察残差计算 Chord 控制场 u^\hat{u}u^。然后使用此平滑场在单步中传输图像。最后,可以应用可选的近端细化步骤。该细化是仅使用目标提示的单次前向传递,以放大目标语义而无需重新反演,有效地将结构保持传输与语义增强分离。

实验

在 PIE-bench 数据集和各种 T2I 模型上的评估表明,ChordEdit 通过无需训练和无需反演的设计实现了领先的效率和有竞争力的质量。消融研究证实,提出的 Chord 控制场通过减少能量方差稳定了编辑过程,这防止了朴素基线中常见的背景伪影和身份失败。最后,用户研究通过显示参与者始终偏好 ChordEdit 优于现有方法,因其语义对齐和背景保留的卓越平衡,强化了这些定量发现。

ChordEdit 被提出为一种单步图像编辑框架,在保持有竞争力的编辑质量的同时实现了最先进的效率。结果表明,与多步和少步基线相比,该方法显著减少了运行时间和 VRAM 使用,同时提供无需训练和无需反演的属性。数据表明模块化设计,其中基础传输步骤确保高一致性,可选细化步骤提升语义对齐。ChordEdit 在单步中运行,实现比多步竞争对手低得多的运行时间和 VRAM 消耗。该方法在与其他单步和少步基线相比时实现了优越的背景保留分数。ChordEdit 独特地将无需训练和无需反演的属性与高语义保真度相结合。

该表展示了消融研究,比较朴素基线与提出的方法,具体分析近端细化步骤对性能的影响。结果表明,提出的方法在背景保留和语义对齐方面始终优于基线。此外,细化步骤的添加增强了语义保真度,同时保持了与结构一致性的有利平衡。提出的方法在所有配置下均实现了优于朴素基线的背景保留和语义对齐。结合近端细化步骤显著提高了语义对齐分数,展示了与背景一致性的权衡。无细化的方法以单次函数评估运行,优先考虑高保真传输而非最大语义强度。

该表在三个文本到图像模型上比较了提出的 ChordEdit 方法与朴素基线:InstaFlow、SwiftBrush-v2 和 SD-Turbo。结果表明,与朴素方法相比,提出的方法在背景保留和语义对齐方面始终获得更高的分数。这证明了 Chord 控制场在稳定编辑过程方面的有效性,而无需特定于模型的训练。提出的方法在所有测试模型中在背景保留和语义对齐方面始终优于朴素基线。对于列出的每个模型配置,PSNR 和 CLIP-Edited 分数均观察到性能提升。结果验证了该方法在不同文本到图像架构上的鲁棒性和与模型无关的适用性。

研究评估了 ChordEdit 与多步、少步和单步图像编辑方法,表明其无需训练的方法实现了最先进的效率和有竞争力的编辑质量。结果表明,与复杂的多步基线相比,ChordEdit 显著减少了运行时间和 VRAM 使用,同时保持了优越的背景保留和语义对齐。ChordEdit 在比较方法中实现了最快的运行时间和最低的步数,运行时的 VRAM 需求显著更低。在单步类别中,提出的方法通过保持高结构保真度并避免与不稳定单步编辑相关的伪影,优于朴素基线。该方法在不同的模型骨干上表现出一致的性能,显示出鲁棒的语义对齐和保留能力。

该评估在多个文本到图像架构上比较了 ChordEdit 与多步基线和朴素方法,以评估效率和编辑质量。结果表明,提出的方法在保持优越的背景保留和语义对齐的同时,显著减少了运行时间和 VRAM 使用。消融研究强调,可选的细化步骤进一步增强了语义保真度,同时平衡了结构一致性,验证了该框架作为单步图像编辑的鲁棒、无需训练的解决方案。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供