NVIDIA NeMo Agent工具包助力全自动物理AI机器人仿真与训练
NVIDIA开发了一种多代理生成式AI工作流程,以系统化地生成高质量的合成数据集,加速机器人训练和部署。这一工作流程结合了NVIDIA NeMo Agent工具包、NVIDIA Omniverse、OpenUSD、NVIDIA Cosmos和NVIDIA NIM微服务,构建了一个自动化的管道来增强3D环境的真实性,并大规模生成合成数据以支持机器人的策略训练。 问题背景 物理AI(如机器人、自动驾驶汽车和智能空间)需要能够感知、理解和在现实世界中智能行动。然而,有效的训练需要大量的多样化数据集。单纯依赖现实世界的數據收集往往是成本高、耗时长,并且受到安全性和实际操作的限制。为了解决这一问题,开发人员和机器人专家开始采用合成数据生成(SDG)技术来快速创建多样且真实的场景。然而,当前的SDG通常手动操作,缺乏自动化工具,导致流程效率低下。 多代理SDG工作流程概述 为了简化这一过程并使机器人开发人员能够迅速生成高质量的合成数据,NVIDIA展示了一个自然语言驱动的全自动SDG生成和增强工作流程。 具体步骤 规划代理:解析用户输入的高级目标,将其分解为一系列可执行步骤,并协调其他代理高效完成每个步骤。例如,加载3D场景、创建初始机器人路径、寻找和放置适合仓库环境的资产障碍物等。 真实性增强代理:利用NVIDIA Cosmos Transfer微服务预览版等世界基础模型(WFMs)来提升视频输出的逼真度和视觉保真度,生成高质量和稳健的训练数据。 推理代理:使用NVIDIA Cosmos Reason评估生成的视频,确定其是否适合导航策略训练,进行质量控制。 辅助代理:处理常规子任务,如将场景加载到Omniverse中和捕捉视频输出,实现端到端的自动化工作流。 工作流程实例 一个机器人开发人员可以通过单个提示描述整个工作流程: - 打开位于/usd/Scene_Blox目录下的SceneBlox场景。 - 创建从点(-18.222, -17.081)到点(-18.904, -26.693)的初始机器人路径。 - 搜索适合仓库的资产,如塑料箱、纸板箱和手推车。 - 放置两个障碍物,要求机器人绕过这些障碍。 - 创建一个新的机器人路径,避免所有已放置的障碍。 - 捕捉显示机器人导航的视口视频。 - 使用详细提示将视频提升为逼真的现代电商履行中心,包括直接通过大窗户和天窗照射的阳光、反光的抛光混凝土地板、排列整齐的金属货架和输送系统等。 技术架构 SDG工作流程由两个协同工作的系统组成:情景系统和合成API。情景系统生成描述不同对象配置和场景变化的提示,将其发送到合成API。合成API负责构建场景、运行动画、记录视频,并进行风格转换和结果评估。最终,视频链接被收集并用于训练数据集的组装。 设计目标 多代理SDG工作流程的设计目标包括: - 自动化:通过自然语言驱动,完全自动化的生成和增强合成数据。 - 多样性:增强3D环境的真实性和复杂性,生成多样化的训练场景。 - 高效性:减少人工干预,加快数据生成速度,提高训练效率。 未来发展 物理AI的快速发展离不开高效和可扩展的训练数据。多代理系统通过自动化生成高质量的合成数据集,有效解决了传统手动SDG的局限性,显著加速了机器人策略训练、验证和最终的实际部署。这一技术的进步将在未来几年内对自主系统的开发产生重要影响。 行业评价与公司背景 业内专家认为,NVIDIA的多代理SDG工作流程是一个重大的突破,因为它不仅提升了数据生成的质量,还大幅提高了生产效率。NVIDIA作为全球领先的计算技术公司,一直致力于推动计算科学和人工智能的发展,此次推出的技术将进一步巩固其在AI领域的领导地位。通过提供全面的开发工具,NVIDIA帮助开发者更加便捷地构建和优化自主系统,为未来的创新打下坚实的基础。