HyperAIHyperAI

Command Palette

Search for a command to run...

CARE-Edit:面向上下文图像编辑的条件感知专家路由

Yucheng Wang Zedong Wang Yuetong Wu Yue Ma Dan Xu

摘要

统一扩散编辑器通常依赖一个固定的共享骨干网络来处理多样化任务,因而面临任务间干扰以及对异构需求(如局部与全局、语义与光度)适应性不足的困境。特别是,当前主流的 ControlNet 和 OmniControl 变体多通过静态拼接或加法适配器来融合多种条件信号(如文本、掩码、参考图像),此类机制无法动态地优先处理或抑制相互冲突的模态,从而导致诸如掩码边界处的色彩渗漏、身份或风格漂移,以及在多条件输入下行为不可预测等伪影问题。针对上述挑战,本文提出了一种“条件感知专家路由”(Condition-Aware Routing of Experts, CARE-Edit)方法,旨在使模型计算与特定的编辑能力精准对齐。该方法的核心是一个轻量级的潜在注意力路由器,它依据多模态条件与扩散时间步,将编码后的扩散令牌动态分配至四个专用专家模块:文本专家、掩码专家、参考专家与基础专家。具体而言:(i)掩码重绘模块(Mask Repaint module)首先对粗糙的用户定义掩码进行细化,以提供精确的空间引导;(ii)路由器采用稀疏 Top-K 选择机制,将计算资源动态分配给最相关的专家;(iii)潜在混合模块(Latent Mixture module)随后融合各专家的输出,将语义、空间及风格信息连贯地整合至基础图像中。实验结果表明,CARE-Edit 在上下文编辑任务中表现优异,涵盖图像擦除、替换、文本驱动编辑及风格迁移等场景。进一步的实证分析揭示了各专用专家在特定任务中的行为特征,凸显了动态且具备条件感知能力的处理机制在缓解多条件冲突方面的重要性。

一句话总结

香港科技大学的研究人员提出了 CARE-Edit,这是一种统一的扩散编辑器,用动态潜在注意力路由器取代了静态适配器。该创新根据多模态条件将令牌分配给专门的专家,有效消除了在主体替换和风格迁移等复杂任务中出现的颜色溢出等伪影。

主要贡献

  • 现有的统一扩散编辑器由于依赖多模态信号的静态融合,无法动态优先处理冲突条件,因此面临任务干扰和颜色溢出等伪影问题。
  • 我们提出了 CARE-Edit,这是一个采用轻量级潜在注意力路由器的框架,能够根据输入条件和时间步,动态地将扩散令牌分发给四个专门处理文本、掩码、参考图和基础处理的专家。
  • 在包括物体擦除、替换和风格迁移在内的多种任务上的实验表明,CARE-Edit 通过有效解决多条件冲突,在编辑忠实度和边界清晰度方面优于静态融合基线。

引言

基于扩散的模型通过实现物体替换和风格迁移等任务彻底改变了图像编辑,然而当前的统一编辑器在处理文本提示、掩码和参考图像等多个冲突输入信号时仍显吃力。现有方法通常依赖静态融合机制,强制所有条件通过共享骨干网络,这往往导致颜色溢出、身份漂移或不一致行为等伪影,因为模型无法在生成过程的不同阶段动态分配其容量以优先处理特定信号。为了解决这些局限性,作者引入了 CARE-Edit,这是一个采用条件感知路由的框架,能够动态地将扩散令牌分发给专门针对文本、空间掩码、参考特征和全局一致性设计的异构专家。该方法利用轻量级路由器,根据输入条件和扩散时间步自适应地选择最相关的专家,同时配合掩码重绘(Mask Repaint)和潜在混合(Latent Mixture)等互补模块,进一步细化空间精度并解决竞争信号之间的冲突。

数据集

  • 数据集构成与来源 作者通过聚合四个主要来源的数据构建了一个包含约 12 万个三元组的训练语料库:MagicBrush 和 OmniEdit 用于基于指令的编辑,UNO 用于物体移除和替换任务,AnyEdit 用于风格迁移。为了解决纯基于指令数据中的空间歧义问题,他们从 Subjects200K 中精选了一个 2 万个样本的子集,专注于多样化的物体和人物,并强调精确的身份保持。

  • 各子集的关键细节

    • 基于指令的: 源自 MagicBrush 和 OmniEdit,这些样本将真实世界图像与丰富的自然语言指令配对。
    • 移除与替换: 源自 UNO 的子集,旨在针对特定的物体操作任务。
    • 风格迁移: 利用 AnyEdit 进行丰富,包含细粒度的外观和风格级指令。
    • 以主体为中心(2 万): 基于 Subjects200K 构建,该子集提供高质量的前景掩码和纯白背景下的参考图像,以支持特定区域的编辑。
  • 模型使用与训练策略 模型利用这些数据集的精选混合来教授多样化的编辑能力,同时保持数据效率。训练流程强调以掩码感知、以主体为中心的课程,使模型在使用显著更少的训练样本的情况下仍能超越更大的基线。数据结构旨在支持条件感知的专家路由,其中粗略的边界框指导路由机制,而精细掩码提供像素级的监督。

  • 处理与元数据构建

    • 掩码感知生成: 作者采用基于 GPT-Image-1 和视觉语言模型(VLM)的流程来合成背景一致但前景各异的图像对。该过程从参考主体开始,生成多样化的场景描述,以创建带有精确分割掩码的高质量图像对。
    • 粗略与精细掩码: 对于每个样本,使用现成的分割模型提取高分辨率精细掩码并进行人工过滤。随后从精细掩码中导出粗略的轴对齐边界框,作为专家路由的空间先验。
    • 提示分类法: 生成过程沿两个轴组织:类别和操作类型(例如替换、添加、风格变化)以及场景级模板。这确保了成对图像之间的背景布局、光照和相机视角保持相似,而前景区域发生变化,从而为局部编辑提供清晰的监督。

方法

作者提出了 CARE-Edit,这是一种基于扩散的编辑器,旨在减轻统一图像编辑中的任务干扰。与处理所有条件的共享骨干网络的静态融合方法不同,CARE-Edit 对一组异构专家执行细粒度的条件感知路由。这种“先专门化后融合”的方式使模型能够动态分配计算资源,优先处理相关模态,并缓解竞争编辑指令之间的冲突。

该框架将多样化的编辑范式(包括基于指令的编辑(文本和基础图像)和基于主体的编辑(基础和参考图像))统一到一个系统中,该系统能够同时处理文本、基础图像、参考图像和掩码输入。

每种输入模态首先通过专门的冻结编码器映射为潜在令牌序列。文本提示由文本编码器 Etex()\mathcal{E}_{\text{tex}}(\cdot)Etex() 处理,生成上下文嵌入 Cp\mathbf{C}_pCp。图像编码器 Eimage()\mathcal{E}_{\text{image}}(\cdot)Eimage() 提取基础图像的潜在表示 Zb\mathbf{Z}_bZb 和参考图像的潜在表示 Zr\mathbf{Z}_rZr。掩码编码器 Emask()\mathcal{E}_{\text{mask}}(\cdot)Emask() 将空间掩码转换为对齐的潜在令牌 Zm\mathbf{Z}_mZm。这些潜在变量被投影到共享的嵌入空间并连接,形成统一的令牌序列 h0\mathbf{h}_0h0。该序列通过冻结的扩散 Transformer(DiT)骨干网络传播,其中在自注意力和投影层应用 LoRA 风格的微调,以便在不完全重新训练骨干网络的情况下使模型适应多模态条件。

核心创新在于带有专家的投影层,该层引入了四个分别对应文本、掩码、参考和基础模态的异构专家。

文本专家通过与文本令牌的交叉注意力执行语义推理和物体合成。掩码专家专注于由编辑掩码引导的空间精度和边界细化。参考专家从参考特征中学习身份和风格一致的变换,而基础专家则强制全局一致性和背景一致性。为了确定哪些模态专家应处理每个令牌,CARE-Edit 执行逐令牌的 Top-K 路由。对于每个令牌,路由器通过结合局部内容特征和全局任务上下文,计算四个专家的概率分布。在实践中,KKK 设置为 3,在表示多样性和计算效率之间取得了良好的平衡。该方案允许每个令牌在空间 - 语义 - 任务联合指导下自适应地关注最相关的专家。

为了解决用户定义的掩码可能与物体边界不对齐的问题,作者引入了掩码重绘(Mask Repaint)模块。该模块利用当前潜在变量与参考特征之间的几何对应关系,在每一步扩散中细化粗略的用户提供掩码。它预测一个柔和的、边界感知的掩码,该掩码适应物体轮廓,促进编辑区域与保留区域之间的平滑过渡。细化后的掩码被反馈到下一个扩散块的路由过程中,调节掩码和基础专家,以确保边界控制逐渐更加锐利。

最后,必须相干地聚合专门专家的输出。作者采用潜在混合(Latent Mixture)模块,根据路由置信度和上下文线索执行逐令牌和逐时间步的处理。融合后的潜在变量是通过专家输出的凸组合获得的,其中每个通道根据路由器的注意力模式整合文本、语义和掩码线索。为了保持全局一致性,该融合潜在变量通过一个学习的、依赖于时间步的门控与基础专家的输出进行混合。模型通过结合标准扩散重建损失以及用于负载均衡、掩码边界一致性和潜在混合平滑度的辅助正则化器进行端到端训练。

实验

  • 在 EMU-Edit 和 MagicBrush 上进行的基于指令的编辑实验验证,与特定任务和统一基线相比,CARE-Edit 产生的结果更清晰、更符合指令,边界更锐利且伪影更少。
  • 在 DreamBench++ 上进行的以主体为驱动的情境编辑测试证实,该模型能够在将物体有效集成到复杂的多物体场景中时,保持主体的身份和结构。
  • 消融研究表明,动态专家路由对于处理多样化的编辑行为至关重要,而潜在混合和掩码重绘等特定组件对于聚合输出和实现精确编辑至关重要。
  • 实证分析显示,该模型成功学会了解耦编辑任务,其中基础专家保持全局一致性,掩码专家专注于几何重构,参考专家处理语义和风格注入。
  • 扩展的定性比较显示了在物体移除、添加、替换和风格迁移方面的稳健性能,突显了该模型在应用复杂语义变化时保持结构完整性的能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供