摘要

生成式世界模型在模拟机器人在多样化环境中的视觉-运动策略交互方面具有巨大潜力。前沿的视频生成模型能够以可扩展且通用的方式生成逼真的观测数据和环境交互。然而，当前视频模型在机器人领域的应用主要局限于分布内（in-distribution）评估，即仅限于与训练策略或微调基础视频模型时所用场景相似的测试情境。在本报告中，我们证明了视频模型可广泛应用于机器人策略评估的全谱系场景：从评估正常条件下的性能，到测试分布外（OOD）泛化能力，再到探测物理与语义层面的安全性。为此，我们提出了一种基于前沿视频基础模型（Veo）的生成式评估系统。该系统针对机器人动作条件化与多视角一致性进行了优化，并集成了生成式图像编辑与多视角补全技术，能够沿多个泛化维度合成真实世界场景的逼真变体。我们验证了该系统在保持基础视频模型核心能力的同时，可准确模拟经编辑后包含新交互物体、新视觉背景及新干扰物的场景。这种高保真度使得系统能够精确预测不同策略在正常与分布外条件下的相对性能，量化各泛化维度对策略表现的影响，并开展“红队测试”以暴露违反物理或语义安全约束的行为。我们通过在八组 Gemini Robotics 策略检查点上进行超过1600次真实世界评估，以及针对双臂操作机械臂的五项任务，验证了上述能力的有效性。

源 PDF