Command Palette

Search for a command to run...

2 个月前

Robix:一种用于机器人交互、推理与规划的统一模型

Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

Robix:一种用于机器人交互、推理与规划的统一模型

摘要

我们提出 Robix,这是一个统一的模型,将机器人推理、任务规划与自然语言交互整合于单一的视觉-语言架构之中。作为分层机器人系统中的高层认知层,Robix 能够动态生成底层控制器所需的原子级指令,以及面向人类交互的语义回应,使机器人能够在端到端框架下理解复杂指令、规划长周期任务,并与人类进行自然交互。此外,Robix 还引入了多项创新能力,包括主动对话、实时中断处理,以及在任务执行过程中具备上下文感知的常识推理能力。Robix 的核心机制基于思维链(chain-of-thought)推理,并采用三阶段训练策略:(1)持续预训练,以增强基础的具身推理能力,涵盖三维空间理解、视觉定位以及以任务为中心的推理;(2)监督微调,将人机交互与任务规划建模为统一的推理-动作序列;(3)强化学习,以提升推理与动作的一致性,以及长周期任务的连贯性。大量实验表明,Robix 在交互式任务执行方面优于多种开源与商业基线模型(如 GPT-4o 和 Gemini 2.5 Pro),展现出在多种指令类型(如开放式、多阶段、约束型、无效及被中断指令)上的强大泛化能力,并在多种用户参与任务中表现优异,包括餐桌清理、超市购物和饮食筛选等场景。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供