Command Palette

Search for a command to run...

2 个月前

EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练

EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练

摘要

人类在开放世界中无缝地进行多模态推理与物理交互的能力,是通用具身智能系统的核心目标。近年来,视觉-语言-动作(VLA)模型在大规模机器人与视觉-文本数据上进行联合训练,已在通用机器人控制方面展现出显著进展。然而,这些模型在交错式推理与交互方面仍无法达到人类水平的灵活性。本文提出EO-Robotics,包含EO-1模型与EO-Data1.5M数据集。EO-1是一种统一的具身基础模型,通过交错式视觉-文本-动作预训练,在多模态具身推理与机器人控制任务中实现了卓越性能。EO-1的构建基于两大核心支柱:(i)一种统一的架构,能够无差别地处理多模态输入(包括图像、文本、视频与动作);(ii)一个大规模、高质量的多模态具身推理数据集——EO-Data1.5M,该数据集包含超过150万条样本,重点聚焦于视觉-文本-动作的交错理解能力。EO-1在EO-Data1.5M上通过自回归解码与流匹配去噪之间的协同作用进行训练,从而实现机器人动作的无缝生成与多模态具身推理。大量实验表明,交错式视觉-文本-动作学习在开放世界理解与泛化方面具有显著有效性,这一结论在多种具身形态、长时程且高灵巧性的操作任务中得到了充分验证。本文详细阐述了EO-1的模型架构、EO-Data1.5M的数据构建策略以及训练方法,为发展先进的具身基础模型提供了宝贵的实践参考与理论启示。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供