HyperAIHyperAI

Command Palette

Search for a command to run...

Cosmos 3:面向物理AI的全模态世界模型

摘要

我们推出 Cosmos 3,这是一组全模态世界模型,旨在统一的混合 Transformer 架构内联合处理与生成语言、图像、视频、音频及动作序列。凭借对高度灵活输入输出配置的支持,Cosmos 3 无缝统一了物理人工智能(Physical AI)的关键模态,有效将视觉语言模型、视频生成器、世界模拟器及世界动作模型整合至单一框架中。我们的评估表明,Cosmos 3 在多样化的理解与生成任务中确立了新的最先进水平,验证了全模态世界模型可作为具身 agents 的可扩展、通用型骨干网络。在技术报告撰写之时,我们经过后训练的 Cosmos 3 模型被 Artificial Analysis 评为最佳开源文本到图像与图像到视频模型,同时被 RoboArena 评为最佳策略模型。为加速物理人工智能领域的开放研究与部署,我们依据 Linux Foundation 的 OpenMDW-1.1 https://openmdw.ai/license/1-1/ 许可协议,在 https://github.com/nvidia/cosmos}{github.com/nvidia/cosmoshttps://huggingface.co/collections/nvidia/cosmos3 提供了我们的代码、模型检查点、精选合成数据集与评估基准。项目官方网站地址为 https://research.nvidia.com/labs/cosmos-lab/cosmos3

一句话总结

Cosmos 3 是一个统一的通用多模态世界模型,采用混合 Transformer 架构联合处理并生成语言、图像、视频、音频和动作序列。该模型将视觉语言模型、视频生成器与模拟器整合至单一灵活框架中,在多种理解与生成任务中达到最先进的性能,同时作为 Physical AI agents 的可扩展基础骨干。

核心贡献

  • Cosmos 3 引入了一种统一的混合 Transformer 架构,联合处理并生成语言、图像、视频、音频和动作序列。该框架将自回归推理塔与基于扩散的生成塔相结合,为 Physical AI 提供高度灵活的输入输出配置。
  • 该模型利用特定模态编码器和结构化的 token 排列,在单一系统内统一了多模态理解与生成。此架构使单一系统能够解释环境、模拟物理动态、推断动作并预测未来观测结果,而无需依赖独立的专用网络。
  • 经过后训练的 Cosmos 3 变体在多种理解与生成基准测试中确立了最先进的性能,被评为最佳开源文生图、图生视频及机器人策略模型。在 OpenMDW-1.1 许可下发布源代码、预训练检查点、精选合成数据集及评估基准,加速了 Physical AI 的开源研究。

引言

Physical AI agents 必须在动态环境中持续进行感知、推理与行动,然而直接在现实世界中训练它们不仅成本高昂且存在安全隐患。以往研究通常通过碎片化流水线来解决这些需求,将孤立的视觉语言模型、视频生成器和动作预测器拼接在一起。这种架构分离导致了计算效率低下,并阻碍了系统在感知与模拟之间保持一致的表征。研究团队利用统一的 Mixture-of-Transformers 架构推出了 Cosmos 3,这是一个通用多模态世界模型,能够联合处理并生成语言、图像、视频、音频和动作序列。通过在单一框架内原生集成理解与生成能力,该模型消除了对割裂的特定任务系统的需求,并为具身 AI 的研究与部署奠定了可扩展且最先进的骨干基础。

数据集

  • 数据集构成与来源: 研究团队构建了一个庞大的多模态语料库,源自数百亿张原始图像与视频候选样本,并划分为两条互补路径。Reasoner 路径依赖成对的视觉语言数据,包括网页级图文对、视频文本对以及纯文本对话。Generator 路径则在大规模未标注的多模态语料库上进行训练,涵盖图像、视频、音频和动作,并辅以高保真合成模拟数据与控制条件数据。
  • 关键子集详情: Reasoner 包含约 2420 万样本,其中 2200 万用于预训练,220 万用于监督微调。预训练阶段侧重于广泛的视觉理解,而微调阶段则转向自动驾驶、机器人和智能基础设施等 Physical AI 领域,视频文本样本占总混合数据的一半。数据来源包括 LocateAnything、Nexar 行车记录仪视频素材、MADS、MimicGen、BEHAVIOR 1K 及各类内部日志。Generator 预训练使用了从数十亿原始源中筛选出的 7.67 亿张图像和 3.477 亿个视频片段。中期训练引入了精心编排的 1560 万张图像和 7470 万个视频,大幅偏向特定领域的 Physical AI 场景与合成数据。音频被划分为 1280 万条非语音片段和 600 万条口型同步语音片段。研究团队还发布了五个大规模合成数据集,涵盖物理交互、机器人、驾驶、数字人和仓库安全。原始媒体数据通过基于 KMeans 聚类的嵌入去重处理,质量过滤器会剔除拼贴画、水印、NSFW 内容以及分屏或静态视频等主要伪影。音频片段则通过声源分离、口型同步置信度评分及语音与音乐比例阈值进行过滤。
  • 训练使用与混合策略: 研究团队采用随时间演进的阶段性课程学习策略。Reasoner 从通用视觉语言预训练开始,随后过渡到专用微调。Generator 遵循从预训练到中期训练的流水线,模型先学习通用生成能力,随后整合动作轨迹、控制信号与特定领域片段。中期训练 tokens 在固定上下文窗口内分布在 256p、480p 和 720p 分辨率上,动作损失被放大以平衡归一化向量幅值。后训练阶段使用紧凑且高质量的数据子集来弥合生成差距,同时避免过拟合。
  • 处理、裁剪与元数据构建: 流水线首先利用场景变化检测将长视频分割为时间一致的片段,并使用标准视频工具去除黑边。研究团队将自由文本描述替换为由微调视觉语言模型生成的结构化 JSON 标注格式。该结构化元数据捕获了光照和构图等静态属性,以及相机运动、动作和状态变化等时间字段。对于图像,采用象限扫描策略确保复杂布局得到完整描述。所有数据均通过可扩展的分布式基础设施进行处理,负责数据分片、元数据追踪与嵌入检索,确保各训练阶段格式一致。

方法

研究团队利用统一架构使 Cosmos 3 能够处理多模态输入并生成多模态输出,将语言、视觉、音频和动作视为核心模态。该模型的基础是 Mixture-of-Transformers (MoT) 骨干网络,用于处理来自不同模态的 token 统一序列。该框架通过将输入 token 组织为结构化格式来应对多样化任务,随后由 MoT 架构进行处理。整体模型由用于语言与视觉理解的推理路径,以及用于生成视频、音频和动作输出的生成路径组成。

该模型架构以特定模态编码器开头,将不同输入投影至统一表征空间。对于视觉,使用两个独立编码器:用于理解的 ViT 编码器与骨干网络联合训练,用于生成的 VAE 编码器则保持冻结。ViT 编码器采用 16×1616 \times 1616×16 的 patch 尺寸,并通过 DeepStack 聚合视觉特征;VAE 编码器在时间维度上压缩 4×4\times4×,在空间维度上压缩 32×3232 \times 3232×32。对于音频,模型采用冻结的音频 VAE 架构。对于动作,模型利用共享潜在空间将多样化的实体控制映射到统一的动作接口,从而实现跨领域的一致推理与生成。该动作表征使用由共享几何组件构建的紧凑向量,包括用于自身与末端执行器位姿的 3D 平移和 6D 旋转,以及用于操作的手持状态。

输入 token 序列被组织为两个独立的子序列:自回归 (AR) 子序列与扩散 (DM) 子序列。AR 子序列包含语言 tokens 和来自 ViT 编码器的视频/图像 tokens,由 transformer 解码器层中专用的一组参数处理以进行推理。扩散子序列包含来自 VAE 编码器的视频/图像 tokens,以及音频和动作 tokens,由另一组专用参数处理以进行生成。这种分离使模型能够通过一致的 token 排列支持多种任务,例如语言生成、文生图和图生视频。例如,在文生图生成中,AR 子序列包含语言提示词,而扩散子序列包含带噪声的目标图像 tokens。

架构的核心是 Mixture-of-Transformers (MoT) 设计,其特点是双塔层结构。每个 transformer 解码器层包含两条独立通路:推理塔与生成塔。推理塔使用标准因果自注意力处理 AR 子序列,确保每个 token 仅关注同一序列中的前置 token。生成塔使用全双向注意力处理 DM 子序列,使每个 diffusion token 能够关注整个上下文,包括 AR token。这两条通路通过双流联合注意力机制进行交互,生成 token 关注来自 AR 和 DM 子序列的拼接 keys 和 values,而 AR token 保持因果自包含。这使得模型能够在不违反自回归属性的前提下,基于推理上下文对生成过程进行条件约束。

为管理多模态输入的时间与空间结构,模型采用 3D 多模态 RoPE (MRoPE) 位置编码方案。该方案将视频、音频和动作 token 对齐到共享的物理时间轴上。对于 AR 子序列,位置索引遵循标准的 3D MRoPE 设计,语言 token 使用单调递增索引,ViT token 在三个轴向上均发生变化。对于扩散子序列,视频 token 在三个轴向上(时间、高度、宽度)变化,而音频和动作 token 仅携带时间坐标。为防止过饱和与伪影,在 AR 和 DM 子序列之间插入固定的时间间隔。模型进一步使用 FPS 调制来调节每个时间增量的有效大小,该方法基于基础 TPS 缩放时间步长,将具有不同时间分辨率的 token 对齐到共享的物理轴上。该模型在三个规模上进行训练:Edge、Nano 和 Super,每个规模均基于具有特定架构超参数的稠密 transformer 骨干网络构建。

实验

评估框架通过涵盖多模态推理、图像与视频生成、空间迁移及机器人策略学习的全套基准测试对 Cosmos 3 进行评估,以验证其物理合理性、时间一致性及现实任务执行能力。实验表明,其统一的通用多模态架构始终能够匹配或超越专用基线模型,而精心筛选的合成数据有效拓宽了领域覆盖范围,且未牺牲感知保真度。进一步的消融研究揭示,联合动作训练建立了一个可复用的跨领域先验,显著加速了对新实体形态的适应过程,且集成的推理塔大幅提升了生成器对物理世界的理解能力。最终,结果证实单一基础模型即可高效统一感知、模拟与控制,以支持多样化的 Physical AI 应用。

实验部分描述了 Cosmos 3 在多种模态与任务上的评估情况,重点聚焦于图像与视频生成、迁移生成及动作生成的表现。结果显示,Cosmos 3 在多个基准测试中达到最先进的性能,尤其在视频生成与动作生成任务中表现突出,在开源与闭源模型对比中均展现出强劲实力。该模型处理多样化 Physical AI 场景的能力得到凸显,在机器人和自动驾驶等特定领域任务中取得显著改进。评估还验证了统一架构在实现跨领域适应与迁移学习方面的有效性。Cosmos 3 在视频生成与动作生成任务中达到最先进的性能,优于各类开源与闭源模型。该模型在机器人与自动驾驶领域展现出强大的特定领域能力,证明了其在 Physical AI 场景中的有效性。Cosmos 3 的统一架构实现了高效的跨领域适应与迁移学习,显著提升了特定任务的性能表现。

该表格对比了两个模型 Cosmos3-Nano 与 Cosmos3-Super 的检查点保存时间。数据显示,Cosmos3-Super 在平均、最小和最大保存时间上均高于 Cosmos3-Nano。Cosmos3-Super 相较于同步训练实现的加速比也大于 Cosmos3-Nano。在平均、最小和最大指标上,Cosmos3-Super 的检查点保存时间均高于 Cosmos3-Nano。与 Cosmos3-Super 相比,Cosmos3-Nano 的检查点保存时间更低,且加速比较小。

该表格对比了不同模型在视频到视频生成任务上的表现,分数反映其有效性。Cosmos3-Super 在所列模型中获得最高分,其次是 Cosmos3-Nano,而 Magi-1 和 Video-GPT 等开源模型表现较低。结果表明,所提模型优于现有的开源替代方案,且较大模型展现出更强的能力。Cosmos3-Super 在视频到视频生成任务中取得最高分。Cosmos3-Nano 的表现优于 Magi-1 和 Video-GPT 等开源模型。所提模型相较于现有开源替代方案展现出更优的性能。

该表格展示了两个模型变体 Cosmos3-Nano 与 Cosmos3-Super 在不同硬件后端与分辨率下的训练吞吐量结果。在所有硬件配置下,Cosmos3-Super 的吞吐量均显著高于 Cosmos3-Nano,其中在 H100 80GB 硬件上两种分辨率的提升最为显著。对于两个模型,256 分辨率下的吞吐量普遍高于 480 分辨率。Cosmos3-Super 在所有硬件后端与分辨率下的训练吞吐量均大幅领先于 Cosmos3-Nano。两款模型的吞吐量差异在 H100 80GB 后端上最为明显。两种模型变体在 256 分辨率下的训练吞吐量始终高于 480 分辨率。

该表格展示了在 PAIBench-G 基准上对视频生成模型的对比,评估了其在各项 Physical AI 任务中的整体表现与特定领域能力。Cosmos3-Super 获得最高总分,并在多数独立领域领先,而 Cosmos3-Nano 表现具有竞争力,尤其在语义对齐与视觉完整性方面。结果凸显了开源模型的强劲实力,Cosmos3-Super 在多个关键领域超越了 Veo-3.1 和 Seedance-1.5 等闭源模型。Cosmos3-Super 取得最高总分,并在语义对齐与视觉完整性等大多数特定领域类别中领先。Cosmos3-Nano 表现优异,尤其在语义对齐与视觉完整性方面突出,并在 Human 领域成为最佳开源模型。在多个领域,Veo-3.1 和 Seedance-1.5 等闭源模型被开源模型超越,Cosmos3-Super 达到了最先进的结果。

评估从视频生成、动作合成及 Physical AI 任务等维度对 Cosmos 3 框架进行检验,以验证其跨领域适应性与计算效率。结果表明,统一架构成功促进了迁移学习,且较大模型相较于现有替代方案持续提供更高的生成质量与训练吞吐量。最终,这些实验证明该框架在复杂的 Physical AI 场景中达到了最先进的能力,同时在多样化的硬件配置下保持了可靠的扩展性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供