NVIDIA 推出 AI 驱动的 3D 机器人感知系统,实现高效环境建图与物体追踪
NVIDIA研究团队近期在机器人3D感知与建图方面取得了一系列重要进展,这些成果能够显著提高机器人的自主导航、物体操作以及远程操作能力。以下是这一系列研究的主要内容和应用: 这些项目的核心在于3D空间表示,即机器人能用于理解环境或物体结构的形式。其中,FoundationStereo 是一个基于立体图像的深度估计模型,训练数据超过100万合成图像对,能够在各种环境中(包括室内、室外、合成及真实场景)无须特定调整即可推断出准确的深度(即3D结构)。输出结果为稠密深度图或点云,代表了场景的3D结构。 实时场景理解依赖于SLAM(同步定位与建图)系统。cuVSLAM 是一个高度高效的CUDA加速SLAM系统,可在机器人的设备上GPU运行,实现双目视觉惯性SLAM。通过引入PyCuVSLAM(一个新的Python API),开发者可以更轻松地原型化和利用cuVSLAM,生成机器人训练数据集,支持端到端决策模型的学习,并通过学习现实世界中的SLAM系统误差来提高模型的鲁棒性。 nvblox_torch 是一个易于使用的Python接口,基于NVIDIA的nvblox CUDA加速重建库,允许开发者将环境观测融合为3D表示,应用在操纵和导航任务中。系统结合RGB-D相机的观测结果,在NVIDIA GPU上生成3D场景表示,可以查询障碍物距离、表面网格和占据概率等信息。此外,nvblox_torch支持深度特征融合,将来自视觉基础模型的图像特征融合到3D重建中,使得重建既包含几何信息也包含语义信息,适用于基于语义的导航和语言引导的操纵任务。 对于机器人来说,理解和跟踪场景中的物体同样是至关重要的。FoundationPose 和 BundleSDF 共同解决了6自由度物体姿态估计和跟踪的问题,尤其是对于从未见过的新物体。 FoundationPose:这是一个学习驱动的方法,适用于基于模型和无模型的6D物体姿态估计和跟踪。系统可以通过神经隐式表示自动生成新视角,即使提供少量参考图像也能处理从未见过的物体。训练数据包括大规模合成数据,能够即时应用到新物体上,无需重新训练,取得了基准测试中的顶级性能。 BundleSDF:这是一种在线优化驱动的方法,可以从RGB-D视频流中近实时(约10Hz)地估计和优化6D物体质心位置及形状。系统只需要第一帧的分割信息,后续不再需要CAD模型或类别知识。通过神经对象字段(Neural Object Field)的学习,BundleSDF能够在物体移动过程中持续优化位置轨迹和形状估计,有效应对大角度变化、遮挡、低纹理表面和镜面反射等问题。 越来越多的机器人感知系统开始利用基础模型,这些大型神经网络能够在不同任务上实现最小调整下的广泛泛化。FoundationStereo 和 FoundationPose 分别为立体深度估计和6D物体姿态跟踪提供了强大的基线模型,无需重新训练即可在多种环境中表现优异。 NVIDIA的这些研究项目正逐渐整合成一个统一的3D感知栈,其中深度估计、SLAM、物体跟踪和3D重建作为紧密集成的组件协同工作。FoundationStereo 提供了可靠的深度估计,cuVSLAM 实现了实时的定位和建图,而 BundleSDF 和 FoundationPose 则处理了物体级别的理解,包括6自由度姿态跟踪和形状估计,即使面对从未见过的物体也能胜任。 通过这些技术,机器人能够在复杂环境中实时理解并与其互动,展现出更高的适应性和灵活性。这一系列进展不仅提升了机器人的功能,也为其未来的开放世界部署打下了坚实的基础。