Command Palette
Search for a command to run...
PhysForge:为交互式虚拟世界生成基于物理的3D资产
PhysForge:为交互式虚拟世界生成基于物理的3D资产
Yunhan Yang Chunshi Wang Junliang Ye Yang Li Zanxin Chen Zehuan Huang Yao Mu Zhuo Chen Chunchao Guo Xihui Liu
摘要
合成基于物理规律的 3D 资产是构建交互式虚拟世界和具身智能(Embodied AI)的关键瓶颈。现有方法主要关注静态几何形状,忽略了互动所必需的功能属性。我们提出,交互式资产的生成必须根植于功能逻辑和分层物理原理。为了填补这一空白,我们引入了 PhysForge,这是一个解耦的两阶段框架,由 PhysDB 提供支持——PhysDB 是一个包含 150,000 个资产的规模化数据集,具备四级物理标注。首先,一个视觉语言模型(VLM)充当“物理架构师”,规划一份“分层物理蓝图”,该蓝图定义了材料、功能和运动学约束。其次,一个基于物理规律的扩散模型通过一种新颖的 KineVoxel Injection(KVI,运动体素注入)机制来实现该蓝图,从而合成高保真几何形状及精确的运动学参数。实验表明,PhysForge 能够生成功能合理、可直接用于仿真的资产,为交互式 3D 内容和具身 agents 提供了强大的数据引擎。
一句话总结
PhysForge 是一种解耦的两阶段框架,利用视觉-语言模型构建分层物理蓝图,并结合带有新型 KineVoxel Injection 机制的物理基础扩散模型,合成高保真几何结构与精确的运动学参数,从而为交互式虚拟世界和具身智能生成功能合理且可直接用于仿真的 3D 资产。
核心贡献
- 本文提出 PhysForge,一种用于交互式 3D 资产生成的解耦两阶段框架,并辅以 PhysDB 数据集,该数据集包含 15 万个带有四级物理标注的资产。
- 视觉-语言模型充当物理架构师,在几何合成之前生成分层物理蓝图,明确指定材料、功能及运动学约束。
- 物理基础扩散模型利用新型 KineVoxel Injection 机制实现这些蓝图,生成高保真几何结构与精确的运动学参数,从而产出功能合理且可直接用于仿真的资产。
引言
作者针对具身智能与交互式虚拟世界中的一个关键瓶颈展开研究,当前生成模型的能力已无法满足对支持真实物理操作 3D 资产的日益增长的需求。现有方法主要合成静态几何结构与纹理,生成的资产仅作为非交互外壳,无法在物理引擎中被抓取、推动或进行仿真。这一差距源于对整体形状生成或部件感知技术的依赖,后者基于视觉边界而非功能逻辑来定义组件,导致运动学属性与物理一致性未被充分考虑。此外,以往的物理基础方法通常依赖外部模板或预定义存储库,限制了其向新物体类别泛化的能力,同时细粒度物理数据的缺乏也阻碍了模型训练。
为克服这些挑战,作者提出 PhysForge,这是一种解耦的两阶段框架,将重心从以外观为中心的合成转向以物理驱动生成。该方法利用微调后的视觉-语言模型作为物理架构师来规划分层蓝图,明确定义每个部件的材料属性、功能角色与运动学约束。该结构化计划指导基于扩散的生成器,通过新型 KineVoxel Injection 机制实现资产,将关节轴心与限位等精确运动学参数直接编码至体素表示中,并与几何结构并行处理。该框架由 PhysDB 提供支持,这是一个包含 15 万个资产的大型数据集,标注了四级物理属性,从而能够为机器人技术与交互式环境创建功能合理且可直接用于仿真的 3D 内容。
数据集
- 数据集构成与来源: 作者引入 PhysDB,一个从 Objaverse 获取的 15 万个 3D 物体集合。该数据集涵盖七大主要类别,包括家居、工业、武器、个人用品、交通工具、科技电子产品及文化物品。
- 关键细节与过滤规则: 作者仅保留已具备有意义部件结构且与其物理标注流水线兼容的物体。该数据集采用多层元数据框架,记录物体级属性(真实世界尺度、类别与使用场景)、部件级静态与语义属性(语义标签、材料、质量)、功能特征(内在功能与状态机)以及交互运动学定义(可供性、父级部件、关节类型与关节参数)。
- 处理与元数据构建: 标注工作流遵循人在回路(human-in-the-loop)流水线。团队首先渲染完整物体及各部件图像,由多模态大语言模型处理以生成初始标注。这些输出随后经过人工筛选与修正,以确保准确性与一致性。由于将精确数值轴标注扩展至 15 万个物体并不切实际,作者优先识别关节类型与丰富的物理属性,而非追求精确的运动学数值。
- 训练用途与数据混合: PhysDB 作为模型的核心基础。为弥补运动学标注的简化,作者使用 PartNet-Mobility 与 Infinite-Mobility 补充训练过程。这些外部数据集提供真实运动学参数,在扩散训练阶段被专门整合,以填补运动学数据的缺口。
方法
作者提出 PhysForge,一种用于生成物理基础且具备部件感知能力的 3D 资产的两阶段框架。整体架构由基于 VLM 的规划阶段与基于扩散的生成阶段组成,如框架图所示。在第一阶段,视觉-语言模型(VLM)充当物理蓝图规划器,生成物体结构与物理属性的分层描述。该规划器利用多模态输入,包括 2D 图像、对应的 3D 体素表示以及可选的 2D 部件掩码。图像与掩码由 VLM 的图像编码器处理,而 3D 体素数据则通过 Part-Field 编码器与位置感知 3D 卷积网络进行编码,生成 512 维体素嵌入。模型经过微调,以自回归方式生成分层物理蓝图,包含各部件边界框、父子关系及关节类型。为高效表示 3D 结构,模型使用一组离散的 tokens 对坐标进行量化,从而实现紧凑且有效的结构规划。
在第二阶段,基于扩散的生成过程根据蓝图合成最终的 3D 资产。扩散模型负责生成高保真几何结构、纹理与精确的运动学参数,对于连续值任务,其表现优于 VLM。实现这一目标的关键创新是 KineVoxel Injection 机制。该机制将单个部件的运动学参数表示为 8 维向量,随后通过运动学编码器转换为“KineVoxel”。该 KineVoxel 与标准几何隐变量(latents)一同被注入扩散网络的中间 Transformer 模块。为确保模型能够区分这两类隐变量,KineVoxel 会附加由 VLM 规划得出的关节类型嵌入。扩散网络由下采样块、中间 Transformer 与上采样块组成,在统一框架内对几何与运动学隐变量进行去噪。整个模型采用复合条件流匹配(Conditional Flow Matching)目标进行训练,分别最小化几何与运动学隐变量的 L2 损失,并赋予运动学损失更高权重,以优先保证运动学参数的准确性。
实验
评估在标准与自定义数据集上采用多阶段协议,系统验证部件结构规划、物理属性生成与运动学参数预测。结果表明,物理引导的规划显著提升了语义理解与结构准确性,即使在没有显式掩码输入的情况下也能实现稳健的部件分割。通过利用视觉-语言先验,模型能够准确合成一致的几何结构与精确的运动学参数,在物理属性预测与关节对齐方面显著优于基线方法。这些高保真资产展现出强大的下游应用价值,无缝支持复杂的机器人操作、基于物理的虚拟环境以及由自然语言驱动的 agent 交互。
作者评估了模型在生成物理基础 3D 资产方面的性能,重点关注部件结构规划与物理属性生成。结果显示,该方法在几何准确性与物理属性预测方面均优于基线方法,尤其在整合物理引导规划与运动学参数估计方面改进显著。与基线方法相比,该模型在生成精确物理属性与几何结构方面表现更优。物理引导规划显著提升了部件结构准确性,即使无掩码输入也能得出语义合理的结果。关节类型嵌入与运动学子网络的整合提高了可动物体生成的精度。
作者评估了模型在生成可动物体方面的性能,并在网格质量与运动学参数准确性等指标上与多种基线方法进行对比。结果表明,该方法在几何保真度与关节参数预测方面均取得更优表现,消融实验证实关节类型嵌入与专用运动学子网络对实现准确结果至关重要。该方法在网格生成质量与关节参数准确性上均超越基线模型。即使在更广泛的类别上进行评估,模型仍能取得优于基线的结果。消融实验表明,关节类型嵌入与专用运动学子网络对于精确预测关节参数不可或缺。
作者评估了模型在生成物理基础 3D 资产方面的性能,重点关注部件结构规划与物理属性生成。结果显示,该方法在几何准确性与物理属性预测方面均优于基线方法,即使在没有掩码输入的情况下也观察到显著改进。模型在生成语义明确且运动学精确的可动物体方面的能力在多项评估指标中得到验证。与基线模型相比,所提方法在生成精确物理属性与几何结构方面表现更优。该模型在无需 2D 掩码输入的情况下展现出强大的部件结构规划能力,表明其具备良好的鲁棒性与语义理解能力。结果表明,运动学参数预测取得显著改进,突显了物理引导生成框架的有效性。
作者跨多个数据集评估该方法,并与基线方法进行对比。结果表明,该方法在边界框与体素级准确性方面均取得更优表现,在整合物理引导规划后改进显著。模型在无需掩码输入的情况下展现出鲁棒性,并在生成精确物理属性与运动学参数方面优于基线方法。所提方法在部件结构规划上达到先进水准,在边界框与体素级指标上均超越基线模型。物理引导规划显著增强语义理解,即使无掩码输入也能实现准确结果。与现有方法相比,该模型在生成精确物理属性与运动学参数方面表现更优。
作者跨多个数据集评估该方法并与基线模型对比,验证了通过部件结构规划、几何保真度与运动学参数预测生成物理基础 3D 资产的能力。结果表明,将物理引导规划与专用运动学子网络相结合,可显著提升语义连贯性与结构准确性,使模型在无 2D 掩码输入的情况下仍能输出可靠结果。总体而言,该方法通过提供更逼真的几何结构与准确的物理属性,持续优于现有基线模型,凸显了其在多样化可动物体类别上的强大泛化能力。