NVIDIA Cosmos Reason 2 引领物理人工智能迈向全新推理时代
NVIDIA今日发布其最新一代开放型视觉语言模型——Cosmos Reason 2,标志着物理AI领域在推理能力上的重大突破。该模型在视觉理解、环境感知与复杂任务规划方面表现卓越,成为当前开源模型中在物理AI基准测试和物理推理排行榜上的第一名。 与前代相比,Cosmos Reason 2在准确性上实现显著提升,能够像人类一样进行多步推理、应对不确定性,并适应新场景。它融合了常识、物理规律和先验知识,可理解物体在时空中的运动变化,从而支持机器人和AI代理在真实世界中实现“看、懂、规划、行动”的闭环能力。 该模型具备多项关键功能:支持OCR识别、2D/3D点定位及标记理解,可精准解析视频中嵌入的文字信息。例如,能通过分析雨天道路视频,判断路面状况。开发者可借助NVIDIA提供的视频搜索与摘要(VSS)蓝图,快速构建视频分析AI代理。 在实际应用中,Salesforce正利用Cosmos Reason 2与Cobalt机器人结合,通过Agentforce平台提升工作场所安全与合规性。Uber则探索其在自动驾驶训练数据中的应用,实现高精度、可搜索的视频字幕生成。实测显示,该模型在自动驾驶视频字幕与视觉问答任务中,BLEU得分提升10.6%,MCQ-VQA准确率提高0.67个百分点,LingoQA得分提升13.8%,充分验证其在特定领域的高效适配能力。 在机器人控制方面,Cosmos Reason 2不仅能规划下一步动作,还能输出机械臂的精确轨迹坐标,实现精准抓取。Encord已集成该模型至其数据代理库,助力机器人与物理AI开发。Hitachi、Milestone、VAST Data等企业正将其用于智能交通、工业安全和自主驾驶等场景。 用户可通过build.nvidia.com试用模型,上传视频或图像进行分析。Cosmos Reason 2的2B和8B版本已开放下载,支持Hugging Face平台,未来将上线AWS、Google Cloud和Azure。更多资源包括模型文档、Cosmos Cookbook及社区支持,均可在官网获取。 此外,NVIDIA还推出了同属Cosmos家族的其他模型:Cosmos Predict 2.5用于预测物理世界未来状态,Cosmos Transfer 2.5实现视频到现实风格迁移,以及专为类人机器人设计的NVIDIA GR00T N1.6,融合Cosmos Reason实现更强大的推理与动作控制。
