HyperAI

一键部署 Cosmos 世界基础模型

GitHub LTX-Video

教程简介

Cosmos 世界基础模型是 NVIDIA 于 2025 年发布的,该模型面向物理 AI 开发者社区开放,是经数百万小时的驾驶和机器人视频数据训练的先进模型。

该系列模型可以预测和生成虚拟环境未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人和自动驾驶汽车 (AV) 。

如同大语言模型一样,世界基础模型(WFM)属于基础类模型。这类模型使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。

在 CES 2025 大会上,NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer 、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。

Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型。这些模型已基于 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,训练了 9,000 万亿个 token 。 该类模型分为三类:Nano,用于针对实时、低延迟推理和边缘部署进行优化的模型;Super,用于高性能基线模型;Ultra,具有高质量和保真度,适合用于蒸馏自定义模型。

相关 Blog 为「CES 2025 | NVIDIA 面向物理 AI 开发者社区开放 Cosmos 世界基础模型」。

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示,由于模型较大,所以需要使用 A6000 启动。

运行方法(启动容器后需要约 15s 初始化,之后再进行如下操作)

1. 克隆并启动容器后

打开工作空间 > 打开终端

2. 输入以下命令激活环境

conda activate ./cosmos

3. 输入以下命令切换 Cosmos 目录

cd Cosmos

4. 输入以下命令启动模型 gradio 界面

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

待出现 8080 端口后打开右侧 API 地址访问 gradio 界面即可

生成视频

进入 gradio 界面后,在「Enter your prompt」输入提示词后点击「Submit」即可进行推理,等待几分钟后可以看到生成的视频。

(参考时间:使用 A6000 生成一段 5s 的视频约需要 30 分钟,生成视频时长默认为 5s,不可更改)

探讨交流

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓