HyperAIHyperAI

Command Palette

Search for a command to run...

一种实用的VLA基础模型

Abstract

在机器人操作领域具有巨大潜力,一个优秀的视觉-语言-动作(Vision-Language-Action, VLA)基础模型应具备跨任务与跨平台的强泛化能力,同时确保成本效益(例如,适应过程所需的数据量和GPU计算时长)。为此,我们构建了LingBot-VLA模型,其训练数据源自9种主流双臂机器人配置的约20,000小时真实世界数据。通过对3种不同机器人平台进行系统性评估,每种平台完成100项任务,每项任务包含130次训练后评估(post-training episodes),我们的模型在性能上显著优于现有竞争者,充分展现了其卓越的表现力与广泛的泛化能力。此外,我们还开发了一个高效的代码框架,在8张GPU的训练配置下,实现了每GPU每秒261个样本的吞吐量,相较于现有的VLA专用代码库,性能提升达1.5至2.8倍(具体取决于所依赖的视觉语言模型基础架构)。上述特性共同确保了本模型在真实场景部署中的高度适用性。为进一步推动机器人学习领域的发展,我们开放提供代码、基础模型及基准数据集,旨在支持更具挑战性的任务研究,并促进更加科学、严谨的评估标准建设。

一句话总结

Robbyant 研究人员提出了 LingBot-VLA,这是一种在 9 个平台上基于 20,000 小时真实机器人数据训练的视觉-语言-动作基础模型,通过混合 Transformer 架构和空间感知深度对齐实现最先进的泛化能力,并将训练吞吐量提升 1.5–2.8 倍,从而支持可扩展且可部署的机器人操作。

主要贡献

  • LingBot-VLA 在来自 9 个平台的 20,000 小时真实双臂机器人数据上训练,证明了 VLA 性能随数据量增加而显著提升,且在当前规模下未出现饱和,从而在跨任务和跨实体场景中实现更强的泛化能力。
  • 该模型在 3 个机器人平台上进行严格的真实世界评估,完成 100 个多样化任务(每任务 130 个回合),表现优于竞争对手,建立了多平台 VLA 评估的新基准。
  • 优化后的训练代码库在 8-GPU 设置下实现每 GPU 每秒 261 个样本,相比现有 VLA 框架提速 1.5–2.8 倍,降低计算成本并加速部署就绪模型的开发。

引言

作者利用视觉-语言-动作(VLA)基础模型,使机器人能够根据自然语言指令执行多样化的操作任务,旨在弥合大规模预训练与真实世界部署之间的差距。先前工作缺乏在真实机器人上的系统性评估,且训练代码库效率低下,限制了数据扩展和多平台测试。其主要贡献是 LingBot-VLA,该模型在 9 个平台上的 20,000 小时真实双臂机器人数据上训练,展示了性能随数据规模稳定提升,并在 100 个任务上跨 3 个机器人实体实现最先进的泛化能力。同时,他们还发布了优化的训练代码库,相比现有框架提速 1.5–2.8 倍,加速迭代并降低成本,同时通过公开代码、模型和基准促进开放科学。

数据集

  • 作者使用一个大规模预训练数据集,数据来源于 9 个双臂机器人平台的遥操作数据,包括 AgiBot G1、AgileX、Galaxea R1Lite/Pro、Realman Rs-02、Leju KUAVO 4 Pro、Oinglong、ARX Lift2 和 Bimanual Franka——每个平台具有不同的自由度机械臂、相机配置和夹爪设置。

  • 对于语言标注,人工标注员将多视角机器人视频分割为与原子动作对齐的片段,并裁剪静态的起始/结束帧。随后使用 Qwen3-VL-235B-A22B 为每个片段生成精确的任务和子任务指令。

  • 对于 GM-100 基准,通过在三个平台上遥操作收集每任务 150 条原始轨迹;保留其中表现最佳的 130 条(根据任务完成度、流畅度和协议遵守情况)。物体按 GM-100 规范标准化,每条轨迹中物体位姿随机化以增强环境多样性。

  • 遥操作遵循严格准则:保持末端执行器间隙、接触时动作缓慢、确保起始/结束视觉状态清晰。自动过滤移除技术异常,再通过多视角视频人工审核排除不符合协议或场景杂乱的片段。

  • 测试集包含约 50% 未出现在训练集中最频繁 100 个动作中的原子动作,以确保强泛化评估。图 3a 和 3b 中的词云可视化了训练/测试拆分中的动作类别分布。

  • 所有轨迹均处理以符合 GM-100 任务规范,元数据包括标准化物体信息、随机位姿和质量评级的轨迹标签。未提及裁剪;处理重点在于分割、过滤和指令标注。

方法

作者采用混合 Transformer(MoT)架构,将预训练视觉语言模型(VLM)与动作生成模块结合,构成 LingBot-VLA 的核心。该框架通过独立的 Transformer 路径处理视觉-语言和动作模态,并通过共享自注意力机制耦合,实现逐层统一的序列建模。VLM(具体为 Qwen2.5-VL)编码多视角操作图像和任务指令,而动作专家处理包含初始状态和动作块的本体感知序列。该设计确保 VLM 的高维语义先验在所有层引导动作生成,同时通过模态特定处理最小化跨模态干扰。

在时间戳 ttt 的联合建模序列为观察上下文 Ot\mathbf{O}_tOt 与动作块 At\mathbf{A}_tAt 的拼接。观察上下文定义为 Ot=[It1,It2,It3,Tt,st]\mathbf{O}_t = [\mathbf{I}_t^1, \mathbf{I}_t^2, \mathbf{I}_t^3, \mathbf{T}_t, \mathbf{s}_t]Ot=[It1,It2,It3,Tt,st],包含双臂机器人三视角操作图像的标记、任务指令 Tt\mathbf{T}_tTt 和机器人状态 st\mathbf{s}_tst。动作序列表示为 At=[at,at+1,,at+T1]\mathbf{A}_t = [\mathbf{a}_t, \mathbf{a}_{t+1}, \ldots, \mathbf{a}_{t+T-1}]At=[at,at+1,,at+T1],其中 TTT 为动作块长度,预训练时设为 50。训练目标是使用流匹配(Flow Matching)建模条件分布 p(AtOt)p(\mathbf{A}_t|\mathbf{O}_t)p(AtOt),以实现精确机器人控制所需的平滑连续动作建模。

对于流时间步 s[0,1]s \in [0, 1]s[0,1],中间动作 At,s\mathbf{A}_{t,s}At,s 通过真实动作 At\mathbf{A}_tAt 与高斯噪声 ϵN(0,I)\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})ϵN(0,I) 的线性插值得到,即 At,s=sAt+(1s)ϵ\mathbf{A}_{t,s} = s\mathbf{A}_t + (1-s)\epsilonAt,s=sAt+(1s)ϵAt,s\mathbf{A}_{t,s}At,s 的条件分布表示为 p(At,sAt)=N(sAt,(1s)I)p(\mathbf{A}_{t,s}|\mathbf{A}_t) = \mathcal{N}(s\mathbf{A}_t, (1-s)\mathbf{I})p(At,sAt)=N(sAt,(1s)I)。动作专家 vθv_{\boldsymbol{\theta}}vθ 通过最小化流匹配目标训练以预测条件向量场:

LFM=EsU[0,1],At,ϵvθ(At,s,Ot,s)(Atϵ)2,\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{s \sim \mathcal{U}[0,1], \mathbf{A}_t, \epsilon} \left\| v_{\boldsymbol{\theta}}(\mathbf{A}_{t,s}, \mathbf{O}_t, s) - (\mathbf{A}_t - \epsilon) \right\|^2,LFM=EsU[0,1],At,ϵvθ(At,s,Ot,s)(Atϵ)2,

其中目标速度源自理想向量场 Atϵ\mathbf{A}_t - \epsilonAtϵ

为确保正确信息流,对联合序列 [Ot,At][\mathbf{O}_t, \mathbf{A}_t][Ot,At] 实施块级因果注意力。序列划分为三个功能块:[It1,It2,It3,Tt][\mathbf{I}_t^1, \mathbf{I}_t^2, \mathbf{I}_t^3, \mathbf{T}_t][It1,It2,It3,Tt][st][\mathbf{s}_t][st][at,at+1,,at+T1][\mathbf{a}_t, \mathbf{a}_{t+1}, \ldots, \mathbf{a}_{t+T-1}][at,at+1,,at+T1]。因果掩码限制注意力,使得每个块内的标记仅能关注自身及先前块,而块内标记使用双向注意力。这防止未来动作标记的信息泄露到观察表示中。

为增强空间感知和执行鲁棒性,采用视觉蒸馏方法。与三视角图像对应的可学习查询 [Qt1,Qt2,Qt3][\mathbf{Q}_t^1, \mathbf{Q}_t^2, \mathbf{Q}_t^3][Qt1,Qt2,Qt3] 由 VLM 处理,并与 LingBot-Depth 提供的深度标记 [Dt1,Dt2,Dt3][\mathbf{D}_t^1, \mathbf{D}_t^2, \mathbf{D}_t^3][Dt1,Dt2,Dt3] 对齐。该对齐通过最小化蒸馏损失 Ldistill\mathcal{L}_{\mathrm{distill}}Ldistill 实现:

Ldistill=EOtProj(Qt)Dt,\mathcal{L}_{\mathrm{distill}} = \mathbb{E}_{\mathbf{O}_t} \left| \mathrm{Proj}(\mathbf{Q}_t) - \mathbf{D}_t \right|,Ldistill=EOtProj(Qt)Dt,

其中 Proj()\mathrm{Proj}(\cdot)Proj() 是使用交叉注意力进行维度对齐的投影层。该整合将几何信息注入模型,提升复杂操作任务中的感知能力。

实验

  • 在 3 个平台(AgileX、Agibot G1、Galaxea R1Pro)的 25 台机器人上使用 GM-100 基准(100 个任务,39K 演示)评估 LingBot-VLA,完成 22.5K 次受控试验,与 3 个基线在相同条件下对比。
  • 在真实世界 GM-100 上,带深度的 LingBot-VLA 相比 π0.5 在各平台平均提升 +4.28% 成功率和 +7.76% 进度得分;持续优于 WALL-OSS 和 GR00T N1.6,GR00T 因预训练对齐在特定平台表现更优。
  • 在 RoboTwin 2.0 仿真中,带深度的 LingBot-VLA 在清洁场景下相比 π0.5 提升 +5.82% 成功率,在随机化场景下提升 +9.92% 成功率,利用深度增强的空间先验实现鲁棒的多任务泛化。
  • 训练吞吐量分析显示,LingBot 的代码库在 Qwen2.5-VL-3B-π 和 PaliGemma-3B-pt-224-π 上实现最快样本/秒,高效扩展至 256 GPU,优于 StarVLA、Dexbotic 和 OpenPI。
  • 扩展实验显示,预训练数据从 3K 小时增至 20K 小时时,成功率和进度得分持续提升,跨平台对齐证实了鲁棒泛化能力。
  • 在 Agibot G1 平台上的数据效率测试表明,仅使用每任务 80 条演示的 LingBot-VLA 优于使用 130 条演示的 π0.5,且随着数据增加性能差距扩大。

作者使用大规模真实世界基准,在三个机器人平台上评估 LingBot-VLA 与三个最先进的基线,结果显示,不带深度的 LingBot-VLA 在成功率和进度得分上均优于 WALL-OSS 和 GR00T N1.6。通过引入深度信息,带深度的 LingBot-VLA 在所有平台上相比 π₀.₅ 平均提升 4.28% 成功率和 7.76% 进度得分。

作者在 Agibot G1 平台上使用数据高效的后训练实验比较 LingBot-VLA 与 π₀.₅ 基线,显示 LingBot-VLA 使用更少演示即可实现更高的成功率和进度得分。结果表明,即使每任务仅训练 80 条演示,LingBot-VLA 仍优于 π₀.₅,且随着演示数量增加性能差距扩大,证明其卓越的数据效率。

结果显示,LingBot-VLA 在所有平台上均优于 π0.5\pi_{0.5}π0.5 基线,引入深度信息的变体实现最高平均成功率 86.68%。作者使用受控评估协议确保公平比较,证明基于深度的空间信息显著提升真实世界任务表现。

结果显示,LingBot-VLA 在三个机器人平台上均优于所有基线,无论成功率还是进度得分,引入深度信息的变体表现最佳。模型展现出强大的泛化能力,体现在各平台及所有实体平均表现上均持续优于基线。

作者使用大规模真实世界基准,在三个机器人平台上评估 LingBot-VLA 与三个最先进的基线,结果显示,不带深度的 LingBot-VLA 在成功率和进度得分上均优于 WALL-OSS 和 GR00T N1.6。通过引入深度信息,带深度的 LingBot-VLA 在所有平台上相比 π₀.₅ 实现 4.28% 更高的成功率和 7.76% 更高的进度得分,证明通过增强空间理解提升了性能。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供