
摘要
我们提出 Genie Envisioner(GE),一个统一的世界基础平台,专为机器人操作任务设计,将策略学习、评估与仿真整合于单一的视频生成框架之中。其核心为 GE-Base,一个大规模、指令条件化的视频扩散模型,能够在结构化的潜在空间中捕捉现实世界机器人交互中的空间、时间与语义动态。在此基础之上,GE-Act 通过一个轻量级的流匹配解码器,将潜在表征映射为可执行的动作轨迹,从而在极少监督的情况下实现对多种机器人形态的精准且可泛化的策略推断。为支持可扩展的评估与训练,GE-Sim 作为动作条件化的神经仿真器,能够生成高保真度的闭环策略演进轨迹。平台还配备 EWMBench,一个标准化的基准测试套件,用于衡量视觉保真度、物理一致性以及指令与动作的对齐程度。上述组件共同构建了 Genie Envisioner 作为指令驱动、通用型具身智能的可扩展且实用的基础平台。所有代码、模型与基准测试数据将公开发布。