NVIDIA在NeurIPS发布开源AI模型助力自动驾驶研发
在近日于美国圣地亚哥举行的NeurIPS人工智能顶会上,英伟达(NVIDIA)宣布多项重大开源进展,进一步推动物理AI(Physical AI)与数字AI的发展。公司发布了全球首个面向自动驾驶研究的开源推理型视觉语言动作模型——NVIDIA DRIVE Alpamayo-R1(AR1),并同步推出一系列AI模型、数据集与开发工具,全面支持科研与产业创新。 Alpamayo-R1是业界首个基于“视觉-语言-动作”(VLA)架构的开源推理模型,专为自动驾驶设计。该模型融合了链式思维(chain-of-thought)推理能力与路径规划技术,使自动驾驶系统在复杂交通场景中具备类似人类的“常识判断”能力。例如,在行人密集区域、车道封闭或非机动车道被占等复杂情况下,AR1能通过分析多源数据,分步推理并选择最优行驶路径,显著提升安全性与可靠性。其核心基于NVIDIA Cosmos Reason推理框架,支持研究人员在非商业场景下自由定制、训练与评估模型。 为帮助开发者更高效地使用这一技术,英伟达还发布了“Cosmos Cookbook”——一套完整的开发指南,涵盖数据采集、合成数据生成、模型微调与评估等全流程,已上线GitHub。同时,AR1的训练与评估数据集已开放于NVIDIA物理AI开源数据集平台,配套的AlpaSim评估框架也同步开源。 在数字AI领域,英伟达也推出多款新工具:包括多说话人语音AI模型、具备推理能力的新模型,以及用于AI安全研究的公开数据集。此外,公司还提供生成高质量合成数据的工具,支持强化学习与领域专用模型的定制化开发。这些技术已广泛应用于CrowdStrike、Palantir、ServiceNow等企业构建安全、专业的智能体(agentic AI)系统。 在学术方面,NVIDIA研究人员在NeurIPS上共提交70余篇论文、报告与工作坊,涵盖AI推理、医疗AI、机器人控制、3D场景生成等多个前沿方向。ETH Zurich团队更在会上展示基于Cosmos模型实现高保真、连贯3D环境生成的创新成果。 英伟达的开源战略也获得行业认可。独立机构Artificial Analysis发布的“AI开放指数”显示,NVIDIA Nemotron系列技术在模型许可宽松度、数据透明度与技术文档完整性方面,位列AI生态中最开放的行列。 英伟达CEO黄仁勋多次强调,AI的下一波浪潮是“物理AI”——即让AI具备感知、理解与操作真实世界的能力。首席科学家Bill Dally也表示,公司正致力于成为“所有机器人的大脑”。随着Alpamayo-R1、Cosmos框架与生态工具的全面开放,英伟达正加速构建物理AI的基础设施,为机器人、自动驾驶、智能制造等产业提供核心支持。
