从仿真到现实:基于NVIDIA Isaac GR00T N1.6构建通用类人机器人能力的新范式
NVIDIA发布了其新一代通用人形机器人能力平台Isaac GR00T N1.6,采用“仿真到现实”(sim-to-real)的工作流,推动人形机器人在复杂动态环境中实现感知、规划与全身控制的统一。该平台整合了视觉-语言-动作(VLA)模型、强化学习训练、合成数据导航与视觉定位技术,显著提升机器人在真实世界中的自主性与适应性。 GR00T N1.6是一个多模态VLA模型,能够融合第一视角摄像头图像、机器人状态和自然语言指令,生成端到端的任务执行策略。其核心基于NVIDIA Cosmos Reason世界模型,可将高层指令分解为可执行的步骤,实现环境理解与任务规划。相比前代,N1.6在推理与感知方面进行了优化:采用支持原生分辨率的Cosmos-Reason-2B视觉语言模型,提升视觉清晰度与场景理解能力;引入32层的双倍规模扩散Transformer与状态相关动作预测,使运动更流畅、适应性更强;并通过数千小时的多样化遥操作数据(涵盖人形机器人、移动操作臂、双臂机械手)训练,显著增强跨机器人形态的泛化能力,支持零样本评估与快速微调。 在控制层面,GR00T N1.6依赖NVIDIA Isaac Lab中通过全身体强化学习(RL)训练的低层控制器,生成类人、动态稳定的运动基元,涵盖行走、操作与多接触行为。该控制器在Isaac Lab和Isaac Sim中大规模训练并验证,可实现零样本迁移到真实机器人,大幅减少对特定任务数据的依赖。 导航方面,GR00T N1.6通过COMPASS系统,利用Isaac Lab生成的大规模合成数据进行点对点导航微调。COMPASS结合模仿学习、残差强化学习与策略蒸馏,生成跨形态的移动策略,实现零样本仿真到现实的部署,无需额外实地数据采集。 为实现真实环境中的精准定位,系统采用基于视觉的建图与定位(SLAM)栈,依托NVIDIA CUDA加速的cuVSLAM与cuVGL算法。系统预先构建包含地标、词袋与占用图的多模态地图,运行时通过立体视觉匹配与特征跟踪,实现低漂移的实时定位,支持任务规划与精准导航。 该技术已成功应用于G1人形机器人,完成复杂人机交互任务。NVIDIA提供完整代码与教程,支持开发者基于Isaac ROS与CUDA-X库构建自定义机器人系统。通过订阅NVIDIA Robotics资讯、参与开发者论坛与免费课程,可快速开启物理AI开发之旅。
