HyperAIHyperAI

Command Palette

Search for a command to run...

世界动作模型 WAM

日期

4 小时前

组织

NVIDIA

论文 URL

arxiv.org

世界动作模型(World Action Model, WAM)是一种面向具身智能与机器人领域的新型 AI 基础模型架构。由 NVIDIA 于 2026 年 2 月最早提出,相关论文成果为 “World Action Models are Zero-shot Policies”,该论文提出了 DreamZero(一个 14B 参数的机器人基础模型),并首次明确采用 World Action Model (WAM) 这一术语来定义这类新型架构。论文指出,不同于传统的 VLA(仅做单步动作映射),WAM 是一种通过联合预测 “未来世界状态(视频流)” 和 “机器人动作” 来直接继承物理世界先验的基础模型,从而实现了极强的零样本泛化能力(Zero-shot Policy)。此外,NVIDIA 官方发布了一篇词条 “What Is a World Action Model?” 进行进一步解释说明。

2026 年 5 月,复旦大学、上海创智学院和新加坡国立大学在论文 “World Action Models: The Next Frontier in Embodied AI” 中做了系统性综述,论文明确将 WAM 定义为:“将预测性状态建模(Predictive State Modeling)与动作生成(Action Generation)相统一的具身基础模型,其目标是训练未来状态和动作的联合分布,而不仅仅是动作本身。”

以 NVIDIA 的 DreamZero 为例,WAM 的底层其实是一个巨大的视频生成模型(基于视频扩散骨干网络,如 Wan2.1 或 NVIDIA Cosmos)。核心工作流可以分为三步:

输入:当前画面 + 语言指令 + 机器人当前状态
⬇️
[ WAM 核心大模型 (如 14B 参数的 DiT 架构) ]
⬇️
联合输出 (One Forward Pass):

  1. 预测的未来视频帧(世界接下来长什么样)
  2. 机器人每一帧的精确动作(6 自由度关节轨迹)

通过这种联合预测(Joint Prediction),动作和物理世界的演变被死死地绑定在了一起。机器人如果想正确生成动作,就必须在脑海里正确生成符合物理定律(重力、摩擦力、遮挡关系)的未来视频。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供