2 个月前

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan

摘要

人类在开放世界中无缝地进行多模态推理与物理交互的能力，是通用具身智能系统的核心目标。近年来，视觉-语言-动作（VLA）模型在大规模机器人与视觉-文本数据上进行联合训练，已在通用机器人控制方面展现出显著进展。然而，这些模型在交错式推理与交互方面仍无法达到人类水平的灵活性。本文提出EO-Robotics，包含EO-1模型与EO-Data1.5M数据集。EO-1是一种统一的具身基础模型，通过交错式视觉-文本-动作预训练，在多模态具身推理与机器人控制任务中实现了卓越性能。EO-1的构建基于两大核心支柱：（i）一种统一的架构，能够无差别地处理多模态输入（包括图像、文本、视频与动作）；（ii）一个大规模、高质量的多模态具身推理数据集——EO-Data1.5M，该数据集包含超过150万条样本，重点聚焦于视觉-文本-动作的交错理解能力。EO-1在EO-Data1.5M上通过自回归解码与流匹配去噪之间的协同作用进行训练，从而实现机器人动作的无缝生成与多模态具身推理。大量实验表明，交错式视觉-文本-动作学习在开放世界理解与泛化方面具有显著有效性，这一结论在多种具身形态、长时程且高灵巧性的操作任务中得到了充分验证。本文详细阐述了EO-1的模型架构、EO-Data1.5M的数据构建策略以及训练方法，为发展先进的具身基础模型提供了宝贵的实践参考与理论启示。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Delin Qu Haoming Song Qizhi Chen Zhaoqing Chen Xianqiang Gao Xinyi Ye Qi Lv Modi Shi Guanghui Ren Cheng Ruan