Back to Headlines

R²D²:NVIDIA 世界基础模型革新机器人训练,加速智能体高效学习

5 天前

NVIDIA Research推出名为“R²D²”的最新研究成果,聚焦于利用世界基础模型(World Foundation Models, WFMs)加速机器人训练。随着物理AI系统的发展,真实世界中获取丰富标注数据的速度已难以满足需求。为此,NVIDIA开发了NVIDIA Cosmos平台,提供三大类世界基础模型:Cosmos Predict、Cosmos Transfer与Cosmos Reason,共同构建高效、高保真的合成数据生成与数据治理工作流。 Cosmos Predict基于图像、视频或文本输入,生成物理上合理且连贯的未来场景视频,广泛应用于自动驾驶和机器人任务模拟。例如,其Post-train版本Single2MultiView可从单一前视摄像头视频生成多视角同步画面,显著提升自动驾驶开发效率。另一应用GR00T-Dreams则通过生成植物浇水任务的神经轨迹,实现从仿真到真实机器人的成功迁移。 Cosmos Transfer支持通过分割图、深度图、边缘图、激光雷达扫描、关键点及高精地图等多模态控制输入,结合文本提示生成多样化的场景,如“雪天”或“夜间”条件,有效增强合成数据的视觉多样性,提升机器人与自动驾驶系统在真实环境中的泛化能力。 Cosmos Reason则是一款专注于物理AI推理的视觉语言模型,具备长链式思维能力,能理解物理常识并生成合理的动作序列。它可作为数据“评审员”在合成数据生成过程中自动筛选高质量样本,并可通过监督微调(SFT)和强化学习进一步优化,适用于机器人视觉问答、任务规划等复杂场景。 此外,NVIDIA还推出了DiffusionRenderer框架,基于Cosmos实现图像与视频的去光与重光处理,支持对合成内容进行光照风格迁移,提升视觉真实感。 上述模型与工具已在GitHub、Hugging Face、论文及项目官网公开,开发者可通过NVIDIA Robotics Fundamentals免费课程开启机器人研发之旅。相关成果将于SIGGRAPH 2025发布,持续推动物理AI向更智能、更自主的方向演进。

Related Links

R²D²:NVIDIA 世界基础模型革新机器人训练,加速智能体高效学习 | 头条 | HyperAI超神经