HyperAIHyperAI

Command Palette

Search for a command to run...

Orca:世界在你心中

摘要

我们介绍Orca,一个通用世界基础模型的初步实例。Orca从多模态世界信号中学习统一的世界潜空间,并通过多模态读出接口将其暴露。与优化孤立的下一标记、下一帧或下一动作预测不同,我们以下一状态预测建模为中心,为理解、预测和作用于世界提供统一的状体转移建模路线。Orca通过两个互补范式学习:无意识学习从连续视频中捕捉稠密的自然状态转移,有意识学习通过语言描述的事件和视觉问答监督对稀疏的有意义状态转移建模。为预训练,我们构建了一个大规模世界学习清单数据,包括12.5万小时的视频数据和1.6亿事件注释。预训练后,Orca学习到一个统一的世界潜空间。为考察其支持下游任务的能力,我们通过三个代表性下游读出进行评估:文本生成、图像预测和具身动作生成。Orca的主干被冻结,仅轻量级模态特定解码器可训练。实验展现了所提范式的可扩展性,并验证了更强的世界潜空间使能更强的下游读出。Orca性能优于相似规模的专用基线。结果表明,作为通用世界基础模型,Orca为理解、预测和作用于世界提供了有前景的方法。最后,我们讨论了当前局限,旨在为社区提供有用洞见和启发。

一句话总结

北京人工智能研究院的研究人员推出了Orca,一个通用世界基础模型,通过下一状态预测和双重学习范式(对密集视频过渡进行无意识学习,并对带有语言描述的事件通过VQA监督进行有意识学习),从多模态信号中学习统一的世界潜在空间;使用冻结的主干网络结合可训练的轻量级特定模态解码器,Orca展示了可扩展的性能,在文本生成、图像预测和具身动作生成任务上超越了类似规模的专业基线模型。

核心贡献

  • 本文提出Orca,一个通用世界基础模型,通过下一状态预测建模从多模态信号中学习统一的世界潜在空间,从孤立的下一token、下一帧或下一动作目标转变为统一的状态转移范式。
  • Orca采用两种互补的学习策略:对连续视频进行无意识学习以获取密集的自然状态转移,以及对带有语言描述的事件和VQA监督进行有意识学习以获取稀疏的有意义转移,使用了包含125K小时视频和1.6亿事件标注的预训练数据。
  • 实验表明,冻结的Orca主干网络通过仅训练轻量级的特定模态解码器即可支持文本生成、图像预测和具身动作生成,性能优于类似规模的专业基线模型,并证实更强大的世界潜在表示能带来更强的下游解读能力。

引言

作者认为,通向通用智能的真正进展需要模型构建世界状态的内部表征,超越狭隘的下一token、下一帧或下一动作预测。先前的工作主要针对孤立的预测任务,缺乏统一的多模态信号状态转移建模的潜在空间,这阻碍了向多样化下游能力的迁移。为解决这一问题,作者提出了Orca,一个世界学习器,通过两种互补范式从视频和语言中构建世界潜在空间:从连续视频中进行无意识学习以获取自然的密集状态转移,以及从指令引导的事件中进行有意识学习以获取稀疏的事件转移。他们还构建了一个包含事件标注的大规模视频数据集,并证明学习到的潜在空间随数据和模型规模扩展,在可比模型规模下产生更强的文本生成、交互式图像预测和具身动作生成下游性能。

数据集

作者从三个互补的集合构建训练数据,所有数据均基于现实世界的观测。预训练数据包括视频数据、事件数据和VQA数据。对于下游动作模块,他们使用了一个由机器人收集的小型具身动作数据集。

预训练数据组成

  • 视频数据: 由四种现实世界观测类型的视觉信号构成:
  • 第一人称交互(第一人称物理交互)
  • 第三人称操作(以物体为中心的第三人称变化)
  • 无动作机器人执行(机器人环境中的具身动作记录)
  • 自然动态(无需直接干预而演化的场景)

完整存储库包含 125K 小时的通用视频;此版本仅使用了十分之一(12.5K 小时)。其余数据保留用于未来的迭代。

  • 事件数据: 通过多级时间分割和语言标注从视频数据中派生。

  • 粗粒度事件描述过程的主要步骤。

  • 细粒度事件捕捉每个步骤内较短的状态转移。 每个分割的事件都配有一个指定转移的说明文字。 共有 1.6 亿条事件标注,均支持基于事件的状态转移学习。

  • VQA数据: 由语言信号与视频观测配对构成,用于教授对世界状态的描述和解释。 包含 1150 万条通用 VQA 项目,支持视觉问答的响应生成。

事件数据和 VQA 数据均源自或构建于现实世界的视频观测之上。没有提到明确的过滤规则或裁剪策略;其构建依赖于上述的分割、标注和配对过程。

数据使用方式

在预训练期间,这三个集合提供不同类型的监督:

  • 视频数据用于仅观测状态转移和基于事件的状态转移。
  • 事件数据通过其带标注的片段明确教导基于事件的状态转移。
  • VQA 数据训练模型生成解释所观测世界状态的响应。

论文未指定确切的混合比例或训练划分,仅说明这三个集合共同作用以学习世界状态及其转移。

具身动作数据(下游解读训练)

对于动作生成模块,作者使用了一个独立的、小规模的数据集:

  • 由一个双臂轮式人形机器人执行 5 种操作任务收集。
  • 每个任务提供 200 条轨迹,每条轨迹包含指令、视觉信息和本体感知信号。
  • 该数据集仅用于训练动作专家头(一个基于 DiT 的模型)以及将模型潜在空间映射到动作块的适配层。

除了机器人收集设置和指令与视觉-本体感知流的配对之外,没有给出额外的过滤或处理细节。

方法

作者将世界学习形式化为潜在世界状态建模,包括从多模态世界信号中进行状态抽象以及状态转移。给定世界信号 χ\boldsymbol{\chi}χ,其中可以包括语言、视觉、音频和物理信号,模型将它们映射到一个潜在世界状态 SSS,即 S=fθ(X)S = f_\theta(X)S=fθ(X)。该状态在隐式动态 ztz_tzt 和显式条件 ctc_tct 下演化: St+ΔpΘ(St+ΔSt,zt,ct),ΔZ0S_{t+\Delta} \sim p_\Theta(S_{t+\Delta} | S_t, z_t, c_t), \quad \Delta \in \mathbb{Z}_{\neq 0}St+ΔpΘ(St+ΔSt,zt,ct),ΔZ=0 其中 Δ>0\Delta > 0Δ>0 预测未来状态,Δ<0\Delta < 0Δ<0 回溯到过去状态。为了实现这种状态转移建模,作者采用了两种互补的学习范式:无意识学习和有意识学习。无意识学习仅从观测中捕获密集和自然的状态转移,无需显式语义条件(ct=c_t = \emptysetct=)。有意识学习在显式语义条件(如语言指令)下捕获稀疏且有意义的状态转移(ct=et+Δc_t = e_{t+\Delta}ct=et+Δ)。

架构的核心是编码器,它使用原生预训练的视觉-语言模型(VLM)学习用于状态抽象和转移的统一世界潜在空间。

对于无意识学习,输入是视频帧 vtv_tvt,输出是下一相邻帧的预测潜在表示 v^t+1l\hat{v}_{t+1}^lv^t+1l。该帧经过 VLM 和两个 MLP 层生成预测。真实帧 vt+1v_{t+1}vt+1 通过一个冻结的视觉编码器获得潜在表示 νt+1l\nu_{t+1}^lνt+1l,用于对预测进行监督指导。对于有意识学习,视频基于有意义的事件被划分为片段。输入包括一个帧 vtv_tvt 和一个相邻事件的指令描述 et+Δe_{t+\Delta}et+Δ。输出是与该事件关联的预测潜在表示 v^t+Δl\hat{v}_{t+\Delta}^lv^t+Δl。此外,为了促进世界理解,模型获取视频和相关问题 lql_qlq 以输出语言答案 lal_ala。学习到的潜在空间随后由特定模态的解码器进行解读。

训练过程包括预训练阶段和下游后训练阶段。在预训练期间,作者用三个目标实例化世界状态建模:仅观测状态转移、基于事件的状态转移和 VQA 响应生成。前两个目标通过 VLM 主干输入中的可学习查询向量实现,而 VQA 生成则通过语言建模头进行优化。完整的预训练损失结合了这些组成部分: L=λobsLobs+λevtLevt+λvqaLvqa\mathcal{L} = \lambda_{obs}\mathcal{L}_{obs} + \lambda_{evt}\mathcal{L}_{evt} + \lambda_{vqa}\mathcal{L}_{vqa}L=λobsLobs+λevtLevt+λvqaLvqa 其中 Lobs\mathcal{L}_{obs}Lobs 对应于无意识学习,Levt\mathcal{L}_{evt}LevtLvqa\mathcal{L}_{vqa}Lvqa 对应于有意识学习。

预训练数据被组织成三个互补的集合,为学习世界状态及其转移提供监督。

视频数据涵盖第一人称交互、第三人称操作、无动作机器人执行和自然动态等现实世界观测,支持仅观测和基于事件的状态转移。事件数据通过多级事件分割和语言标注从视频数据中派生,支持基于事件的状态转移。VQA 数据从语言信号和视频数据构建,教导模型描述和解释所观测的世界状态,支持 VQA 响应生成。

在下游后训练阶段,Orca 主干网络保持冻结,仅训练特定模态的读出模块,以提取语言、视觉和动作信息。

对于文本生成,模型重用 LM 头以根据视觉观测和指令产生响应。对于图像预测,潜在表示通过 MLP 适配器并作为 Stable Diffusion 3.5 模型的路径输入,其中仅 MLP 适配器和 LoRA 参数可训练。对于动作生成,一个基于 DiT 的动作专家模型从零开始使用流匹配损失进行训练。它接收带有时间嵌入的噪声动作、本体感知以及经 MLP 适配器处理的潜在表示,以生成用于机器人操作的动作块。

实验

Orca 的下一状态预测范式随模型规模和数据有效扩展,产生了更强大的世界潜在表示,即使在没有动作标签的情况下也能改善下游文本生成、图像预测和动作生成。该模型在推理和视觉状态预测方面优于可比 VLM 和世界模型,并实现了分布外机器人任务的成功以及更好的错误恢复。消融实验表明,联合使用仅观测、基于事件和 VQA 损失能取得最均衡的性能,每个目标都贡献了独特的优势。

一个微型视觉-语言模型(0.8B)在文本生成基准上获得了最高的平均分,超越了更大的世界模型。在世界模型中,V-JEPA 加语言模型的组合在 MVBench 和 TemporalBench 上领先,而 Emu3 雄踞 3DSRBench,所有模型在 SWITCH 基准上的表现相似。一个 0.8B 的视觉-语言模型在四个基准上的平均分高于 8B 和 34B 的世界模型。V-JEPA 2.1 加 LLaMA3 的组合在 MVBench 和 TemporalBench 上表现出最强的结果,MVBench 领先第二名 46.9 分。Emu3 在 3DSRBench 上表现卓越,分数比最近的竞争对手高出近 10 分。SWITCH 的成绩在所有模型中紧密聚集,分数差距在 1.9 分的范围内。

Orca-4B 在所有文本生成基准上均优于 Qwen3.5-4B,在状态转移和动态运动理解上增益最大。常识推理也有显著提升,而空间关系仅显示出微小增加。这些结果表明,Orca 的状态转移建模特别增强了与世界状态变化和时间动态相关的能力。Orca-4B 在状态转移基准上相对 Qwen3.5-4B 实现了 12.27% 的提升,是所有分类中最大的增益。动态运动理解提升了 8.52%,常识推理提升了 5.19%,展示了在时间和抽象推理方面的广泛收益。空间关系仅有 0.57% 的提升,表明状态转移建模对静态空间任务的好处有限。

在 PRICE-V0.1 真实世界图像预测基准上,配备 4B 语言编码器和 2B 视觉解码器的 Orca 模型在四个自动评估器上获得了最高的平均分,同时在所有比较系统中表现出最低的方差。较小的 Orca 配置落后于专门的图像生成基线,表明模型规模显著影响状态转移预测质量。Orca 的较大变体(4B+2B)实现了最佳整体平均分和最一致的结果(以标准差衡量)。FLUX.2 [klein] 的平均分排名第二,但评估器之间的分歧大得多,表明预测稳定性较差。最小的 Orca(0.8B+2B)记录了最低平均分,突显了更大容量对视觉状态预测的益处。模型排名依评估器而异:FLUX.2 [klein] 受 Gemma 4-31B 青睐,而 Orca 在其他三个评判者下领先。所有评估都使用了真实世界交互数据,并由四个不同的大语言模型评判,确保了多方面的评估。

Orca 学习到的世界潜在表示有效迁移到动作生成,在环境和物体分布外设置中大幅优于 Qwen3.5,并突破了其他从头训练方法中零成功率的障碍。它还表现出更强的任务里程碑推进能力和从执行错误中恢复的能力,在比较模型中取得了最高的失败近成功率和回撤恢复率。Orca 在两个分布外设置中均达到了最高的基于规则的分数,并且是唯一一个从零开始模型取得非零成功率,优于使用相同动作专家的 Qwen3.5 和 V-JEPA 2.1。Orca 更高的失败近成功分数和回撤恢复率表明,即使失败的轨迹也能达到任务后期阶段,并且模型能更有效地纠正偏差,在进展下降后继续执行。

结合仅观测状态转移、基于事件的状态转移和 VQA 响应生成,在文本、图像和动作读出上取得了最均衡的性能。移除观测损失显著削弱动作生成,而事件损失对图像预测至关重要。VQA 损失保持了语言基础,与另两个目标共同作用达成了最高的总体平均分。使用所有三个预训练目标获得了最高的平均分(48.0)和最均衡的下游结果。添加仅观测转移损失显著提升了动作生成,当从事件加 VQA 组合转到完整组合时,动作得分从 23.0 提升至 32.4。基于事件的转移对图像预测至关重要:没有它,图像生成会失败,加上它则使图像性能在有 VQA 时提升至 54.7,使用全部三个损失时提升至 59.8。

一个微型 0.8B 视觉-语言模型在文本生成基准上出人意料地超过了更大的世界模型,而像 V-JEPA 配合 LLM 这样的世界模型组合在时间理解上领先,Emu3 则在三维空间推理上表现优异。Orca-4B 在与 Qwen3.5 相比时,在状态转移和动态运动理解上有显著提升,但在静态空间任务上仅有微弱改善。在真实世界图像预测中,Orca 的较大变体实现了最一致的质量,其学习到的世界潜在表示有效迁移到动作生成中,实现了非零的分布外成功率和强大的错误恢复能力。消融实验揭示,联合使用仅观测、基于事件和 VQA 训练目标可实现最均衡的性能,其中观测损失对动作至关重要,事件损失对图像生成不可或缺,而 VQA 损失则保持了语言基础。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供