世界动作模型崛起:机器人基础模型新范式
近期,机器人基础模型领域迎来重要范式演进,以世界-动作模型(WAM)为代表的新技术路线迅速崛起。与传统依赖视觉-语言模型基础微调的VLA路线不同,WAM采用预训练视频或世界模型作为核心骨干,通过预测场景动态变化并同步输出控制指令,有效缓解了传统方法中语言指令到物理动作的落地鸿沟。 当前技术路线主要围绕预测范式与动作表征展开。逆动力学与联合预测成为主流思路,前者先构想未来画面再反推动作,后者则在单次计算中同步生成视频流与动作序列。为平衡性能与效率,架构设计正逐步走向模块化融合,通过注意力机制将视频先验与动作专家深度耦合。 尽管WAM在零样本泛化与物理规律建模上表现优异,但视频生成带来的算力消耗与推理延迟仍是工程化瓶颈。随着开源视频底座成熟及动作离散化技术的迭代,该成本正被快速摊薄。学界与产业界普遍认为,WAM并非取代VLA,而是将与之交汇,催生集语言理解、世界推演与动作执行于一体的通用具身智能基础框架。这一技术融合正加速机器人从实验室走向复杂现实场景。
