NVIDIA Cosmos 3 打造物理 AI 推理、世界与动作模型
英伟达发布了物理人工智能基础模型 Cosmos 3,旨在构建能够理解现实世界、预测未来并生成动作的通用智能系统。该模型专为机器人、自动驾驶及智能空间设计,首次将物理推理、世界生成和动作生成能力统一于单一架构中。Cosmos 3 采用混合变换器(MoT)架构,通过双塔结构简化了开发流程,消除了传统方案中多模型协同的复杂性。 此次发布标志着英伟达推动物理 AI 开源生态的重要一步。英伟达不仅开源了 Cosmos 3 模型,还公开了训练脚本、部署工具及六大合成数据集,涵盖机器人操作、物理仿真、人类运动、自动驾驶及仓库场景等,旨在提升模型训练的可复现性与通用性。为更精准地评估生成质量,英伟达推出了“人类评估”(HUE)框架,通过事实核查替代传统主观评分,从语义对齐、物理规律等维度对视频生成进行客观验证。 性能方面,Cosmos 3 在多项权威基准测试中表现卓越。其大尺寸版本在推理任务上领先,小尺寸版本在生成质量指标上领跑开源社区,特别是在物理规律遵循和几何推理方面表现突出。开发者可利用公开的训练配方,对模型进行监督微调,以适配特定领域的机器人控制、自动驾驶策略或仓储监控等需求。 在部署层面,Cosmos 3 已集成至英伟达 NIM 微服务,提供优化后的推理运行时,帮助企业快速实现生产级应用。目前推理服务已开放,生成服务即将推出。这一系列举措将进一步加速物理智能从实验室走向实际应用,为构建更智能的自动化系统奠定坚实基础。
