NVIDIA Warp 和高斯点绘助力机器人构建实时物理世界模型
近年来,建立动态数字孪生来再现物理世界的课题在研究领域日益受到关注。这项研究的核心在于如何通过机器人实时同步并构建一个与现实世界一致的数字模型,该模型能提供丰富的状态信息,支持并增强一系列下游任务。 人类能够轻松地从视觉信息中构建出一个内部模型,将平面图像转化为连贯的三维环境,并在其中模拟物理互动、预测后果和无缝适应。即便闭上眼睛,我们也能“看到”自己在移动物体。当再次睁开眼睛时,我们会迅速协调想象与现实之间的差异。现在,研究人员正试图复制这种动态的视物物理推理能力到机器人身上,使其具备物理AI的功能。 在这项名为“Physically Embodied Gaussians”的方法中,研究人员利用显式的物理仿真来实现这一目标。他们认为,通过维护一个实时的内部环境仿真模型,机器人可以更好地理解和模拟周围的世界,而不仅仅是依赖原始图像流或离线重建。这种方法的关键是不同的可微渲染(Differentiable Rendering),特别是高斯点绘(Gaussian Splatting),结合现代的分割和场景理解模型,可以从少量图像和基本物理知识中生成准确的仿真器。 连续视觉监督通过可微渲染实现。具体来说,通过不断调整仿真器的状态,直到渲染出的图像与真实世界的观察结果相匹配。当与每秒运行30次左右的物理引擎配合时,这形成了一种强大的反馈循环。仿真器只要在大约33毫秒内保持准确即可,如果出现偏移,渲染系统会迅速纠正。实际上,这使得即使初始化不完善的物理模型也能在长时间内保持准确,因为实时校正机制会弥补仿真中的误差。 高斯点绘通常需要30多个摄像头才能可靠工作,但机器人应用中无法实现这一点。研究人员通过利用机器人设置中可用的强烈先验知识解决了这一问题。这样不仅超越了视觉复制,也使表示方式不仅基于外观,还基于物理原理,从而在使用较少摄像头的情况下也能稳健工作。 该方法采用了双表示系统:颗粒和高斯分布。粒子由物理系统驱动,而视觉系统的错误则生成修正力,将粒子重新对齐。这种双重系统形成了一个闭环:物理影响视觉,视觉修正物理。 总的来说,这一方法维持了一个实时的、视觉和物理上都准确的环境模型,可适应性强、效率高且基于感知。此模拟器使用NVIDIA Warp作为物理引擎和可视化工具,以及gsplat进行可微渲染。 业内专家认为,这一研究方向展示了物理AI领域的巨大潜力,有可能显著提升机器人在复杂环境中的感知和操作能力。NVIDIA作为全球领先的计算平台公司,其Warp和gsplat工具为这一前沿研究提供了强有力的支持。