6 个月前

统一多模态

计算机视觉

Yue Liao Pengfei Zhou Siyuan Huang Donglin Yang Shengcong Chen Yuxin Jiang Yue Hu Jingbin Cai Si Liu Jianlan Luo

摘要

我们提出 Genie Envisioner（GE），一个统一的世界基础平台，专为机器人操作任务设计，将策略学习、评估与仿真整合于单一的视频生成框架之中。其核心为 GE-Base，一个大规模、指令条件化的视频扩散模型，能够在结构化的潜在空间中捕捉现实世界机器人交互中的空间、时间与语义动态。在此基础之上，GE-Act 通过一个轻量级的流匹配解码器，将潜在表征映射为可执行的动作轨迹，从而在极少监督的情况下实现对多种机器人形态的精准且可泛化的策略推断。为支持可扩展的评估与训练，GE-Sim 作为动作条件化的神经仿真器，能够生成高保真度的闭环策略演进轨迹。平台还配备 EWMBench，一个标准化的基准测试套件，用于衡量视觉保真度、物理一致性以及指令与动作的对齐程度。上述组件共同构建了 Genie Envisioner 作为指令驱动、通用型具身智能的可扩展且实用的基础平台。所有代码、模型与基准测试数据将公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

计算机视觉

Yue Liao Pengfei Zhou Siyuan Huang Donglin Yang Shengcong Chen Yuxin Jiang Yue Hu Jingbin Cai Si Liu Jianlan Luo

摘要

我们提出 Genie Envisioner（GE），一个统一的世界基础平台，专为机器人操作任务设计，将策略学习、评估与仿真整合于单一的视频生成框架之中。其核心为 GE-Base，一个大规模、指令条件化的视频扩散模型，能够在结构化的潜在空间中捕捉现实世界机器人交互中的空间、时间与语义动态。在此基础之上，GE-Act 通过一个轻量级的流匹配解码器，将潜在表征映射为可执行的动作轨迹，从而在极少监督的情况下实现对多种机器人形态的精准且可泛化的策略推断。为支持可扩展的评估与训练，GE-Sim 作为动作条件化的神经仿真器，能够生成高保真度的闭环策略演进轨迹。平台还配备 EWMBench，一个标准化的基准测试套件，用于衡量视觉保真度、物理一致性以及指令与动作的对齐程度。上述组件共同构建了 Genie Envisioner 作为指令驱动、通用型具身智能的可扩展且实用的基础平台。所有代码、模型与基准测试数据将公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供