Command Palette
Search for a command to run...
何时信任想象力:世界动作模型的自适应动作执行
何时信任想象力:世界动作模型的自适应动作执行
Rui Wang Yue Zhang Jiehong Lin Kuncheng Luo Jianan Wang Zhongrui Wang Xiaojuan Qi
摘要
世界动作模型(World Action Models, WAMs)通过联合预测未来的视觉观测结果与动作,近期已成为具机器人操作领域一种备受瞩目的范式。然而,现有的 WAMs 通常在每次模型推理后执行固定数量的预测动作,导致机器人在实际物理执行过程中,无法感知想象的未来是否与真实物理 rollout(序列展开)保持一致。在本工作中,我们将自适应 WAM 执行形式化为一个“未来-现实一致性验证”(future-reality verification)问题:当 WAM 预测的未来保持可靠时,机器人应执行更长的动作序列;而当现实偏离想象时,则应尽早重新规划。为此,我们提出了未来正向动力学因果注意力机制(Future Forward Dynamics Causal Attention, FFDC),这是一种轻量级验证器,它通过对预测的未来动作、预测的视觉动态、真实观测数据以及语言指令进行联合推理,来评估剩余的动作 rollout 是否仍值得信任。FFDC 使得动作块(action chunk)大小能够自适应调整,这是预测与观测一致性的涌现结果。该方法在保持长程执行效率的同时,恢复了机器人在接触密集或困难阶段的任务响应能力。此外,我们还引入了混合地平线训练(Mixture-of-Horizon Training),以改善自适应执行过程中的长程轨迹覆盖范围。在 RoboTwin 基准测试及真实世界实验中的结果表明,我们的方法实现了鲁棒性与效率之间优异的交易平衡:在 RoboTian 基准上,与短动作块基线相比,WAM 的前向传播次数减少了 69.10%,执行时间减少了 34.02%,同时任务成功率提升了 2.54%;在真实世界实验中,任务成功率提升了 35%。
一句话总结
本文提出了一种面向世界动作模型(World Action Models)的自适应执行框架。该框架采用未来前向动力学因果注意力(FFDC)替代固定的动作执行序列。FFDC 是一种轻量级验证器,用于评估预测与观测的一致性,从而动态调整动作块(action chunk)的大小。通过混合视界训练(Mixture-of-Horizon Training),该框架在保持长视界推理效率的同时,能够在接触密集阶段触发早期重规划。
核心贡献
- 本文将自适应世界动作模型执行建模为未来现实验证问题,并引入了未来前向动力学因果注意力(FFDC)。FFDC 是一种轻量级验证器,能够联合推理预测的未来动作、预测的视觉动态、真实观测与语言指令,基于预测与观测的一致性动态调整动作块大小。
- 为支持该自适应执行范式,框架引入了混合视界训练(Mixture-of-Horizon Training)。这是一种训练目标,旨在提升长视界轨迹覆盖率,并在不同时间尺度上维持可靠的一致性信号。
- 实证评估表明,与固定动作块基线相比,该方法实现了更高的任务成功率,并显著缩短了完成时间。该方法将执行长度确立为未来现实验证的自然涌现结果,而非人工调优的超参数。
引言
世界动作模型通过联合预测未来视觉状态与动作序列,已成为机器人操作领域的强大框架,显著提升了策略在多样化物理任务中的泛化能力。然而,当前实现依赖每次推理使用固定动作块,这在可预测场景中造成计算资源浪费,且在复杂或高接触交互中极易导致失败。以往的自适应执行方法也存在不足,因其依赖动作不确定性或策略置信度,而非利用模型内在的视觉动态预测能力进行自验证。为解决这一问题,本文引入了未来前向动力学因果注意力。这是一种轻量级验证器,可连续对齐预测的视觉轨迹与实时观测及任务指令。该机制基于预测与现实的一致性动态调整执行长度,使机器人能够在稳定阶段安全延长动作执行序列,并在出现偏差时触发早期重规划。
方法
作者提出了一种名为 FFDC-WAM 的框架,该框架将低频宏观规划与高频轻量级验证相结合,通过利用世界动作模型(WAMs)的联合视频动作建模能力,实现高效的自适应动作执行。该框架的核心在于模块化设计,将长视界规划与实时信任评估分离,使系统能够根据当前环境反馈动态决策是继续执行预测动作序列还是进行重规划。
系统核心是一个 WAM,其基于当前观测与语言指令联合预测未来动作与视觉观测。在推理过程中,WAM 生成未来的动作块及对应的潜在视觉 token。标准动作块执行以开环方式执行这些预测,这在动态环境中可能导致误差累积。为此,FFDC-WAM 引入了轻量级验证器 FFDC,用于持续评估剩余预测执行序列的可靠性。
参见框架示意图。整体架构包含一个 WAM,用于生成预测的动作序列与潜在视觉 token。在每个检查步骤 t,FFDC 验证器将最新真实观测 Ot、语言指令 L、历史与未来预测视觉 token O^tp 与 O^tf、未来动作片段 A^t 以及可学习的 [CLS] token 作为输入,以评估当前状态。这些输入被组织为序列 Xt,作为验证器的输入。
如图所示,FFDC 验证器基于 N 层 Transformer 实现。其关键组件为结构化因果注意力机制,该机制强制预测动作与视觉动态之间进行时间对齐的交互。注意力掩码确保未来视觉 token 仅关注至同一时间步的历史与未来视觉 token,且未来动作 token 仅关注至同一时间步的未来视觉 token 与动作。该设计保留了时间因果性,防止信息泄露,并维持了计算效率。为进一步降低计算量,注意力机制在按时间排序的未来 token 局部窗口内应用。[CLS] token 将整个可见序列聚合为紧凑表示,随后通过多层感知机(MLP)头生成置信度分数 et。
WAM 的训练策略采用混合视界采样方法,即在单个 episode 内均匀采样条件时间步,以提升长视界推理的轨迹覆盖率。对于 FFDC 验证器,构建了一个二分类任务,目标是预测未来动作片段是否可执行。训练数据集由成功演示、失败执行序列以及通过时间交换、夹爪翻转与后期噪声注入等数据增强技术合成的损坏片段构成。验证器使用二元交叉熵损失进行训练,以学习有效与无效动作序列之间的区别。
实验
实验在 RoboTwin 模拟器中针对五十项任务(含清洁与扰动条件)以及真实世界的抓取与放置测试展开,验证了系统通过自适应执行平衡效率与鲁棒性的能力。仿真结果表明,验证器基于预测的未来现实一致性动态调整推理频率,在简单任务上减少不必要的计算,同时在复杂阶段触发及时重规划以防止开环失败。真实世界测试进一步证实,该在线验证有效抵消了感知噪声与执行漂移,相较于固定视界基线显著提升了任务成功率。最后,消融实验验证了联合建模预测视觉、真实观测、动作执行序列与语言指令的必要性,其中预测的未来视觉被证明是可靠置信度估计的最关键信号。
作者在仿真与真实环境的一系列操作任务中,将所提出的 FFDC-WAM 方法与多种基线进行了对比。结果表明,FFDC-WAM 取得了最高的成功率,并通过根据任务难度与预测可靠性自适应调整模型推理频率提升了效率。该方法在简单与困难任务上均表现出鲁棒性,在成功率与执行时间方面显著优于基线模型。在真实世界实验中,FFDC-WAM 通过检测执行漂移并在需要时触发重规划,优于固定动作块基线。消融实验证实,FFDC 的所有组件均对其性能有所贡献,其中预测视觉 token 与真实观测对置信度估计尤为重要。相较于基线,FFDC-WAM 实现了最高的成功率,并在鲁棒性与效率之间取得了最佳平衡。该方法根据预测可靠性在简单任务上自适应减少模型调用,在困难任务上增加调用。消融实验表明,预测视觉 token 与真实观测是可靠置信度估计的最关键因素。
作者在仿真与真实环境的一系列操作任务中,将所提出的 FFDC-WAM 方法与多种基线进行了对比。结果表明,FFDC-WAM 相比基础模型取得了更高的成功率与更快的任务完成时间,同时减少了所需的模型推理次数。该方法根据任务难度自适应调整执行策略,在简单任务上使用较少推理,在困难任务上使用较多推理,展现出改进的鲁棒性与效率。在真实世界实验中,FFDC-WAM 通过更准确地检测执行漂移并在必要时触发重规划,优于固定长动作块基线。无论是在仿真还是真实环境中,FFDC-WAM 均比基础模型具有更高的成功率与更快的完成速度。该方法通过根据任务难度自适应调整执行频率来减少模型推理次数,在保持鲁棒性的同时提升了效率。在真实世界任务中,FFDC-WAM 通过检测执行漂移并触发重规划以避免失败,优于固定长动作块基线。
作者在真实世界的抓取与放置任务中评估了该方法,并与采用固定长动作块执行的基线进行对比。结果表明,该方法在两项任务上均取得了更高的成功率,同时保持可比的执行时间,并略微增加了模型调用次数。这表明该方法通过在线验证提升了鲁棒性,即使在不确定真实世界条件下需要更频繁的重规划。相较于基线,FFDC-WAM 在两项真实世界任务中均实现了更高的成功率。FFDC-WAM 的执行时间略长且模型调用次数更多,表明在线验证有所增加。该方法在真实世界不确定性存在的情况下,通过按需触发重规划来维持鲁棒性。
作者在仿真与真实环境的一系列操作任务中评估了 FFDC-WAM 方法,并与使用固定动作块尺寸或缺乏自适应验证的基线模型进行对比。结果表明,FFDC-WAM 基于对预测未来状态的置信度动态调整推理频率,从而实现了更高的成功率与更快的完成时间,同时在处理真实世界不确定性方面展现出鲁棒性。消融实验证实,FFDC 验证器的所有组件均对性能有所贡献,其中预测视觉 token 与真实观测对于可靠置信度估计尤为重要。FFDC-WAM 通过根据预测可靠性自适应调整推理频率,提升了成功率并缩短了执行时间。该方法在仿真与真实环境的困难任务上取得了显著增益,优于因牺牲鲁棒性或效率而表现不佳的固定动作块基线。消融结果表明,预测视觉 token 与真实观测是验证器进行准确置信度估计的关键输入。
作者在仿真环境中的一系列操作任务上评估了所提出的 FFDC-WAM 方法,重点关注成功率与执行时间。结果表明,FFDC-WAM 通过根据任务难度与预测可靠性自适应调整推理频率,取得了最高的平均成功率并提升了效率。在真实世界实验中,FFDC-WAM 通过在线验证以及在检测到执行漂移时触发重规划,显著提升了成功率,优于长动作块基线。FFDC-WAM 通过使推理频率适应任务难度与预测可靠性,实现了最高的平均成功率与效率提升。在困难任务上,FFDC-WAM 在保持简单任务高成功率的同时,大幅提升了相较于基线的鲁棒性。在真实世界环境中,FFDC-WAM 通过检测执行漂移并触发重规划来改善成功率,尽管计算成本较高,但整体性能更优。
所提出的 FFDC-WAM 方法在仿真与真实环境中的操作任务上进行了评估,并与固定动作块基线及基础模型基线进行对比。通过根据任务难度与预测可靠性动态调整推理频率,该方法始终取得更高的成功率与更高的效率,尤其在挑战性任务与不确定的真实世界条件下表现突出。该方法有效检测执行漂移并触发必要的重规划,展现出鲁棒性与计算效率之间的强平衡。消融实验进一步证实,预测视觉 token 与真实观测的结合对于可靠置信度估计至关重要,验证了整体设计的合理性。