Command Palette
Search for a command to run...
几何引导的强化学习用于多视角一致的 3D 场景编辑
几何引导的强化学习用于多视角一致的 3D 场景编辑
摘要
利用二维扩散模型的先验知识进行三维编辑,已成为一种极具前景的范式。然而,在编辑结果中保持多视图一致性仍面临严峻挑战;同时,由于缺乏成对的、具备三维一致性的编辑数据,使得监督微调(Supervised Fine-Tuning, SFT)——这一当前编辑任务中最有效的训练策略——难以实施。本文观察到,尽管生成多视图一致的三维内容极具挑战性,但验证三维一致性却相对可行,这自然使得强化学习(Reinforcement Learning, RL)成为一项可行的解决方案。基于这一洞察,我们提出了RL3DEdit:一种由强化学习优化驱动的单阶段框架,其新颖的奖励信号源自三维基础模型 VGGT。具体而言,我们利用 VGGT 从海量真实世界数据中学习到的鲁棒先验,将编辑后的图像输入模型,并以其输出的置信度图与姿态估计误差作为奖励信号,从而通过强化学习将二维编辑先验有效锚定至三维一致流形之上。大量实验表明,RL3DEdit 能够实现稳定的多视图一致性,并在编辑质量上超越现有最先进方法,同时具备高效率。为推动三维编辑技术的发展,我们将公开相关代码与模型。
一句话总结
来自北京交通大学、高德地图(阿里巴巴集团)、南洋理工大学和重庆邮电大学的研究人员提出了 RL3DEdit,这是一种单遍 3D 编辑框架。该框架利用基于 VGGT 的强化学习奖励来确保多视图一致性,克服了数据稀缺问题,并在 AR 和游戏应用中,在质量和效率上均优于迭代方法。
主要贡献
- 当前的 3D 编辑方法难以维持多视图一致性,且由于极度缺乏 3D 一致的配对数据,无法利用监督微调。
- 提出的 RL3DEdit 框架利用 3D 基础模型 VGGT,从置信度图和姿态误差中生成新颖的奖励信号,实现了强化学习优化,将 2D 编辑先验锚定在 3D 一致流形上,且无需配对数据集。
- 大量实验表明,这种单遍方法在实现最先进编辑质量和稳定多视图一致性的同时,运行速度比之前的迭代优化方法快两倍以上。
引言
3D 场景编辑对于 AR/VR 和游戏应用至关重要,但现有方法在利用强大的 2D 扩散模型时,难以保持几何连贯性。先前的方法因迭代优化而效率低下,因信号不一致而产生模糊伪影,或因为依赖深度图或注意力传播而无法处理改变场景几何的编辑。作者通过引入 RL3DEdit 解决了这些挑战,这是一个单遍框架,利用强化学习优化 2D 编辑器以实现 3D 一致性,且无需稀缺的配对训练数据。他们利用 3D 基础模型 VGGT 作为鲁棒的验证器来生成几何感知的奖励信号,有效地将 2D 编辑先验锚定在 3D 一致流形上,同时实现了最先进的质量,速度是现有方法的两倍以上。
方法
作者提出了 RL3DEdit,这是一个利用强化学习为 2D 基础模型赋予 3D 一致性先验的框架。整体架构如框架图所示。给定一个 3D 资产,系统首先从 M 个视角渲染它以获得一组图像 {Im}m=1M。这些图像被同时输入到一个 2D 编辑器(记为 π)中进行联合多视图编辑。在推理过程中,微调后的编辑器在单次前向传播中生成多视图一致的图像,随后通过 3D 高斯泼溅(3DGS)重建处理,生成最终编辑后的 3D 场景。

为了解决在没有配对监督的情况下确保 3D 一致性的核心挑战,作者采用了组相对策略优化(GRPO)算法。在训练期间,系统通过独立的推理过程探索一组 G 个编辑结果。一个专门的 3D 感知奖励模型(通过 VGGT 实现)被用来明确强制执行编辑忠实度和多视图连贯性。该模型联合评估多视图一致性的三个关键方面,分别表示为深度置信度 rD、点置信度 rP 和相对姿态奖励 rT,以及编辑质量项 ra。这些互补的奖励被组合成最终的综合奖励 Ri,引导优化走向一致且高质量的 3D 感知编辑。
2D 骨干网络的选择对于实现跨视图交互至关重要。作者采用了 FLUX-Kontext,这是一个基于 DiT 的模型,通过全局注意力机制天然支持多图像联合编辑。这种能力允许模型将所有输入视图作为连接序列进行处理,从而促进 3D 一致性所需的跨视图交互。这种方法的通用性通过定性结果中展示的多样化编辑能力得到了证明,包括运动、替换、风格迁移、背景修改和物体添加。

训练过程的一个关键组件是锚点奖励,旨在保留基础模型的原始 2D 编辑保真度。通过将编辑后的锚点视图与预计算的高质量 2D 编辑进行比较,模型确保在学习 3D 先验的同时保持语义正确性和视觉细节。正如编辑能力比较图所示,RL 微调后的模型成功保留了基础模型的原始 2D 编辑保真度,这由可比的 VIE 分数指标所证实。

最后,相对优势 Ai 是根据组奖励计算的,模型通过最大化以下目标进行优化:
J(θ)=Jclip(θ)−βDKL(πθ∣∣πref)其中 πθ 和 πref 分别表示微调后的和原始的 2D 编辑器。这种公式化使得模型能够在不需要精心策划的配对数据的情况下有效地学习 3D 一致性先验。
实验
- 与最先进 3D 编辑方法的对比实验表明,所提出的方法在实现卓越的指令遵循、视觉保真度和多视图一致性的同时,显著减少了编辑时间。
- 定性分析显示,该方法成功处理了复杂的几何变换、运动编辑和风格变化,而基线模型由于伪影、重影或语义误读而失败。
- 消融研究证实,深度和点置信度奖励对于防止重影伪影和维持 3D 一致性至关重要,而基于文本的奖励确保了准确的视角对齐。
- 比较一致性验证器的实验表明,传统的指标如运动恢复结构(Structure-from-Motion)和光度重投影损失会导致无纹理或模糊的输出,验证了使用数据驱动先验作为奖励信号的必要性。
- 额外的测试验证了该框架在零样本设置下能有效泛化到未见过的指令和场景,并且可以通过集成更强大的 2D 编辑骨干网络来增强。