Command Palette
Search for a command to run...
基于分解视觉代理的直接3D感知物体插入
基于分解视觉代理的直接3D感知物体插入
Jingbo Gong Yikai Wang Yushi Lan Yuhao Wan Ziheng Ouyang Rui Zhao Ming-Ming Cheng Qibin Hou Chen Change Loy
摘要
目标插入旨在将参考对象无缝合成至背景图像的指定区域。近期的基于扩散的方法虽取得了较高的视觉质量,但将目标插入任务简化为简单的二维图像修复任务,无法对物体的三维姿态提供显式控制,从而限制了其实际应用价值。我们提出了DIRECT(Decomposed Injection for Reference Composition and Target-integration,即用于参考合成与目标集成的分解注入)这一新颖框架,该框架将交互式姿态操控与高保真二维图像合成相融合,实现了姿态可控的目标插入。该方法将插入条件分解为三个互补的组成部分:用于捕捉参考对象视觉细节的外观引导、源自用户调整后的三维代理的几何引导,以及来自目标背景的上下文引导。通过独立的路径进行注入,DIRECT有效避免了特征纠缠,在同时保留参考对象外观、遵循用户指定姿态以及使目标物体适配至目标场景方面表现出色。此外,我们还引入了一套自动化数据构建流程,以提升训练数据的多样性与质量。实验结果表明,DIRECT在几何可控性与视觉质量两方面均优于现有方法。
一句话总结
DIRECT(Decomposed Injection for Reference Composition and Target-integration)提出了一种可控制姿态的物体插入框架,该框架将视觉条件分解为独立的外观、几何与上下文路径,以防止特征纠缠,在克服先前 2D 图像修复方法局限性的同时,在几何控制能力与视觉质量方面优于现有方法。
核心贡献
- 本文提出 DIRECT,一种可控制姿态的物体插入框架。该框架通过将单张参考图像提升为交互式 3D 代理,提供显式的空间引导,从而解决 2D 图像修复方法的局限性。
- 该方法将插入条件分解为外观、几何与上下文信号,并通过独立路径进行路由以防止特征纠缠,在保留参考细节并适配目标背景的同时,实现精确的姿态操控。
- 自动化的数据构建流程提升了训练数据的多样性与质量,实证评估表明,相较于先前方法,该方法在几何控制能力与视觉保真度方面表现更优。
引言
基于参考的图像生成通过利用扩散模型骨干网络来保持物体身份特征并协调场景,显著推进了物体插入技术的发展。该能力对于虚拟布置和增强现实等应用至关重要,然而当前方法仍局限于 2D 平面,无法实施显式的 3D 姿态控制。先前方法难以满足此要求,因为文本提示会引入空间歧义,参数控制无法将稀疏参数映射到精确的像素级几何结构,且现有的 3D 数据集缺乏真实世界的视觉复杂性。为克服这些局限,本文提出 DIRECT 框架,该框架将参考图像提升为粗糙的 3D 代理,并在指定的 6-DoF 姿态下进行渲染以生成稠密几何条件。通过将条件信号分解为独立的路径分别处理几何、外观与场景上下文,模型在保持高保真纹理的同时实现了严格的空间对齐。此外,还实现了从单视图图像自动生成大规模配对训练数据集的流程,从而在可控制姿态的物体插入任务中实现强大的泛化能力与业界领先性能。
数据集
-
数据集构成与来源: 研究团队构建了一个包含约 16 万对图像的综合训练数据集,专为可控制姿态的物体插入任务设计。该数据集将经过筛选的 SA-1B 子集与 MVIgNet 的过滤样本相结合,以平衡真实场景的复杂性与 3D 几何一致性。
-
子集详情:
- SA-1B 衍生集:产出 65,000 对图像。通过 Qwen3-VL agent 与 SAM-3 对该来源进行筛选,以在复杂背景中分离出完全可见且结构完整的物体。
- MVIgNet 衍生集:产出 93,000 对图像。这些样本经过严格的质量过滤,以剔除视频提取伪影并确保可靠的 3D 一致性。
-
数据使用与混合: 合并后的 16 万对图像仅用于训练模型以学习精确的姿态控制。两个子集之间保持 65,000 与 93,000 的比例,有效融合了多样化的自然场景构图与结构化的多视图数据,从而提升泛化能力。
-
处理与构建流程: 采用两阶段自动化工作流。首先,VLM agent 提出物体类别,SAM-3 生成候选分割掩码,随后 agent 对局部裁剪区域进行放大验证,以剔除遮挡物体并确认边界精度。其次,流程采用“真实目标-合成源”策略。原始图像作为真实目标,提取验证后的物体掩码,并通过带有角度编辑适配器的 Qwen-Image-Edit 进行处理。该生成模型将隔离的物体旋转至随机新视角以生成参考输入,在保持身份特征的同时合成所需的姿态变化。
方法
本文利用解耦生成框架 DIRECT,通过将 3D 几何约束显式集成到高保真 2D 图像合成流程中,实现可控制姿态的物体插入。该方法的核心在于将插入条件分解为三个互补组件:外观引导、几何引导与上下文引导。此分解机制使模型能够同时保持参考物体的身份特征、遵循用户指定的 6-DoF 姿态,并使插入物体与背景场景协调,从而克服传统 2D 图像修复方法缺乏显式 3D 控制的局限。
框架首先执行 3D 视觉代理提升步骤。给定 2D 参考物体图像 Iref,系统生成一个可操作的 3D 代理 P,使用户能够在 3D 空间中直观地平移和旋转物体以指定目标姿态 ξ。随后将该姿态渲染为稠密几何引导图像 Igeo,作为生成过程的空间信号。为确保模型正确解析姿态,本文采用基于 RGB 的几何条件,该条件解决了深度图或法线图标准信号中存在的语义歧义问题,尤其针对对称物体,如下图所示。
外观引导由原始参考图像 Iref 提供,其中包含高保真纹理与身份细节。源自 3D 代理的几何引导 Igeo 提供精确的姿态信息,但常因单视图重建的局限性而遭受纹理退化。为协调这些互补信号,模型在训练时以外观 Iref、几何 Igeo 以及代表背景图像全局场景语义的上下文 Ψ(Ibg) 作为条件,生成输出图像 Iout。整体框架设计为通过独立路径处理这些信号,以避免特征纠缠。
上下文引导在两个层级进行处理,以平衡分辨率与全局感知能力。在局部层面,通过将几何引导 Igeo 粘贴至掩码 M 内的背景 Ibg 中,生成插入区域周围背景的高分辨率裁剪图 Ilocal。该局部合成图像被输入至图像修复骨干网络。在全局层面,完整帧背景 Ibg 由冻结的 SIGLIP 编码器处理,以获取提供场景级语义的全局上下文 tokens,cglobal。这些 tokens 使模型能够关注整个场景的光照与构图,从而确保光度一致性。
为有效融合这些独立信号,模型采用解耦注入策略。Iref 与 Igeo 均被编码为潜在 tokens,zref 与 zgeo,而 cglobal 源自 Ibg。带噪目标潜在表示 zt 与这些条件 tokens 结合形成统一序列。两种机制确保信号独立处理:首先,为外观与几何 tokens 分配不同的旋转位置编码(RoPE),在注意力机制中实现空间隔离。其次,在自注意力层内引入模态特定的 LoRA 适配器,促使模型学习条件特定的变换,以提取结构姿态、身份特征与全局上下文。
训练期间,模型采用标准的整流流匹配目标进行优化,仅训练 LoRA 适配器与线性投影层,骨干网络保持冻结状态。为防止模型对精确掩码边界过拟合,采用形状解耦的掩码增强策略,在训练过程中用随机真实物体掩码替换真实目标掩码。同时采用渐进式分辨率训练策略,从固定的 5122 裁剪图开始,并使用更大的 10242 裁剪图进行微调,以实现高分辨率合成。几何条件 Igeo 在训练期间通过几何对齐流程自动生成。该流程结合姿态估计与可微渲染,估计 3D 代理的最优 6-DoF 姿态以匹配真实图像中的目标物体,从而优化姿态并生成精确的 Igeo 以提升训练效率。完整流程如下图所示。
实验
评估采用精心构建的真实与合成图像对混合基准,在不同生成骨干网络下将所提框架与级联 3D 感知及 2D 插入基线方法进行对比。定量与定性评估表明,该方法在身份特征保持、背景协调与精确姿态遵循方面持续优于现有方法。补充实验验证了模型在大姿态变化下的稳定性、解耦引导注入以防止特征纠缠的必要性,以及校正中间 3D 重建伪影的能力。总体而言,结果证实显式集成几何、外观与上下文信号能够在保持严格结构控制的同时,实现可靠的高保真物体插入。
研究通过分析姿态变化幅度对生成质量的影响,根据相对旋转角度将基准划分为多个区间。结果表明,性能在不同姿态变化范围内保持稳定,随着旋转角度增加,图像保真度、身份保持或姿态精度均未出现显著下降。整体指标显示所有区间性能一致,表明模型对中等及大幅姿态变化均具有鲁棒性。模型在各类相对旋转区间内保持结果一致,进一步印证了对大幅姿态变化的适应能力。整体指标未见明显下滑,证明在多样化姿态变化条件下性能可靠。
研究采用图像保真度、身份保持与姿态精度指标,对所提方法与基线模型进行定量评估。该方法在 Stable Diffusion 与 FLUX 框架下均持续优于所有基线模型,在所有评估类别中展现优越结果。结果表明,该方法有效集成几何、外观与上下文引导,生成高保真、姿态精确且身份保持的物体插入结果。所提方法在 Stable Diffusion 与 FLUX 骨干网络下均取得全指标最佳性能,与基线相比在图像保真度、身份保持与姿态精度上展现一致优势。结果显示在不同姿态变化幅度下性能稳定,表明对大幅几何变化具有鲁棒性。
研究从运行时间与内存占用角度将方法与基线进行对比,结果表明该方法在 3D 与 2D 组件上均实现更快的推理时间,整体处理时间更低,同时保持具竞争力的内存消耗。结果显示该方法相较于对比模型效率更高,尤其在 2D 与整体处理阶段。所提方法在 3D 与 2D 组件上的推理时间均快于基线,整体处理时间显著低于对比模型,且尽管效率提升仍保持具竞争力的内存资源占用。
研究开展消融实验,在多项定量指标上对比框架的不同组件。结果表明,每个新增组件均带来性能提升,完整配置在所有指标上取得最佳结果。改进在图像保真度、身份保持与姿态精度方面尤为显著,表明各项设计选择均对提升整体合成质量发挥作用。完整框架相较于独立组件在所有指标上表现最优。引入混合数据显著提升身份保持与姿态精度,渐进式训练带来图像保真度与姿态精度的最大增益。
研究通过定量表格对比方法与基线,评估图像保真度、身份保持与姿态精度。该方法在所有指标上取得优越结果,尤其在图像质量与身份保持方面,同时保持较强的姿态精度。改进归功于上下文与外观引导,以及增强对退化 3D 重建鲁棒性的解耦注入机制。该方法在图像保真度与身份保持上优于基线,在 PSNR、SSIM、LPIPS、CLIP-I 与 DINO 指标上取得最高分。该方法展现出强姿态精度,匹配误差显著低于基线。结果显示在 Stable Diffusion 与 FLUX 骨干网络下均实现一致改进,表明对不同生成模型具有泛化能力。
实验评估在 Stable Diffusion 与 FLUX 框架下将所提方法与成熟基线进行对比,验证了其在图像保真度、身份保持与姿态精度方面的性能。补充测试通过消融实验评估模型对不同程度姿态变化的鲁棒性、计算效率以及各框架组件的独立贡献。结果一致表明,该方法在保持大幅几何变化与退化 3D 输入下强可靠性的同时,优于现有模型。此外,消融与效率分析证实,各项架构设计与训练策略均实质性提升合成质量,同时实现更快的推理速度与具竞争力的内存占用。