HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA 推出 Cosmos Predict-2:更快、更精准的物理 AI 模型助力机器人和自动驾驶技术

构建更智能的机器人和自动驾驶车辆(AVs)的基础是物理AI模型,这些模型能够理解真实世界的动态。这些模型主要用于加速合成数据生成(SDG),帮助自主机器学习真实世界的物理交互,包括罕见的边缘案例,同时也作为基础模型,可以进行后训练以适应特定任务或不同输出类型。 NVIDIA 最近推出了新一代世界基础模型 Cosmos Predict-2,相比上一代 Cosmos Predict-1,它在速度、视觉质量和定制化方面有重大提升。Cosmos Predict-2 可以根据不同场景和硬件平台提供不同的分辨率和帧率选项。该模型有两个版本,分别针对任务复杂度进行优化:2B 版本适用于快速原型设计或低延迟应用,可以在 NVIDIA GPU 上在不到5秒的时间内生成图像预览;14B 版本则提供更高的保真度和时间一致性,适合更复杂的任务。 Cosmos Predict-2 的工作流程包括三个主要步骤: 准备数据:收集大约100小时的远程操作视频数据,使用数据管理工具将其分段,确保数据反映实际设置中的机器人模型、光照条件和物体类型。 后训练模型:利用分类好的视频-文本对对 Cosmos Predict-2 进行后训练,使其适应特定的任务和环境。可以使用 GitHub 仓库提供的后训练脚本。 生成合成场景:通过输入如“在低光照条件下捡起一个有瘀伤的苹果”之类的文本指令,或者提供初始图像,来生成特定领域的合成视频。 为了验证生成的合成数据是否符合物理原理,开发人员可以使用 Cosmos Reason,这是一个空间和时间感知的推理模型。它可以解读视觉输入并生成最优的文本决策或说明,帮助评估生成的数据质量。 此外,NVIDIA Research 正在使用 Cosmos Predict-1 开发高级的视频和3D应用。例如,DiffusionRenderer 方法结合高质量合成数据和现实世界视频,改善长时间视频中的光照效果、几何形状和材料精度。Difix3D+ 模型在 NeRF 和 3DGS 流程中增强3D重建和新视图合成,提高时间一致性,减少闪烁,使细节更加清晰。他们还基于 Cosmos Transfer 和 Cosmos Predict-1 构建了一个适用于 AV 开发的合成数据生成管道 Cosmos-Drive-Dreams,能够生成多种驾驶视频,包括高动态地图、激光雷达深度和文本提示,适用于不同环境和光照条件下的多视角合成。 总体而言,Cosmos Predict-2 在生成物理感知的、高保真度的合成数据方面迈出了重要一步。它的快速推理、可扩展性能和灵活的分辨率及帧率选项使其能够在不同领域和硬件平台上有效应用。配合其他 Cosmos 家族的世界基础模型,如 Cosmos Reason 和 Cosmos Transfer,它形成了一个完整的循环:后训练、生成、验证和优化。这不仅加快了特定领域模型的开发,还提升了物理 AI 系统的智能和安全性。 业内人士认为,Cosmos Predict-2 的推出将极大推动物理 AI 领域的发展,为开发者提供了一个强大的工具,可以在短时间内生成大量高质量的合成数据。这对于提升机器人的灵活性和自动驾驶车辆的安全性具有重要意义。 NVIDIA 是全球领先的图形处理技术与人工智能计算平台公司,其在物理 AI 和合成数据生成方面的研究和开发一直处于行业前沿。如果你对进一步了解和使用 Cosmos Predict-2 感兴趣,可以通过 GitHub 访问项目的代码仓库,跟随 NVIDIA 在 Hugging Face 发布的最新模型通知,观看 NVIDIA 创始人兼 CEO 黄仁勋在 VivaTech 2025 的主旨演讲,并参与 NVIDIA 的开发者社区,探索更多先进的物理 AI 应用和发展。

相关链接