15 天前

摘要

在机器人操作领域具有巨大潜力，一个优秀的视觉-语言-动作（Vision-Language-Action, VLA）基础模型应具备跨任务与跨平台的强泛化能力，同时确保成本效益（例如，适应过程所需的数据量和GPU计算时长）。为此，我们构建了LingBot-VLA模型，其训练数据源自9种主流双臂机器人配置的约20,000小时真实世界数据。通过对3种不同机器人平台进行系统性评估，每种平台完成100项任务，每项任务包含130次训练后评估（post-training episodes），我们的模型在性能上显著优于现有竞争者，充分展现了其卓越的表现力与广泛的泛化能力。此外，我们还开发了一个高效的代码框架，在8张GPU的训练配置下，实现了每GPU每秒261个样本的吞吐量，相较于现有的VLA专用代码库，性能提升达1.5至2.8倍（具体取决于所依赖的视觉语言模型基础架构）。上述特性共同确保了本模型在真实场景部署中的高度适用性。为进一步推动机器人学习领域的发展，我们开放提供代码、基础模型及基准数据集，旨在支持更具挑战性的任务研究，并促进更加科学、严谨的评估标准建设。

一句话总结

Robbyant 研究人员提出了 LingBot-VLA，这是一种在 9 个平台上基于 20,000 小时真实机器人数据训练的视觉-语言-动作基础模型，通过混合 Transformer 架构和空间感知深度对齐实现最先进的泛化能力，并将训练吞吐量提升 1.5–2.8 倍，从而支持可扩展且可部署的机器人操作。

主要贡献

LingBot-VLA 在来自 9 个平台的 20,000 小时真实双臂机器人数据上训练，证明了 VLA 性能随数据量增加而显著提升，且在当前规模下未出现饱和，从而在跨任务和跨实体场景中实现更强的泛化能力。
该模型在 3 个机器人平台上进行严格的真实世界评估，完成 100 个多样化任务（每任务 130 个回合），表现优于竞争对手，建立了多平台 VLA 评估的新基准。
优化后的训练代码库在 8-GPU 设置下实现每 GPU 每秒 261 个样本，相比现有 VLA 框架提速 1.5–2.8 倍，降低计算成本并加速部署就绪模型的开发。

引言

作者利用视觉-语言-动作（VLA）基础模型，使机器人能够根据自然语言指令执行多样化的操作任务，旨在弥合大规模预训练与真实世界部署之间的差距。先前工作缺乏在真实机器人上的系统性评估，且训练代码库效率低下，限制了数据扩展和多平台测试。其主要贡献是 LingBot-VLA，该模型在 9 个平台上的 20,000 小时真实双臂机器人数据上训练，展示了性能随数据规模稳定提升，并在 100 个任务上跨 3 个机器人实体实现最先进的泛化能力。同时，他们还发布了优化的训练代码库，相比现有框架提速 1.5–2.8 倍，加速迭代并降低成本，同时通过公开代码、模型和基准促进开放科学。

数据集

作者使用一个大规模预训练数据集，数据来源于 9 个双臂机器人平台的遥操作数据，包括 AgiBot G1、AgileX、Galaxea R1Lite/Pro、Realman Rs-02、Leju KUAVO 4 Pro、Oinglong、ARX Lift2 和 Bimanual Franka——每个平台具有不同的自由度机械臂、相机配置和夹爪设置。
对于语言标注，人工标注员将多视角机器人视频分割为与原子动作对齐的片段，并裁剪静态的起始/结束帧。随后使用 Qwen3-VL-235B-A22B 为每个片段生成精确的任务和子任务指令。
对于 GM-100 基准，通过在三个平台上遥操作收集每任务 150 条原始轨迹；保留其中表现最佳的 130 条（根据任务完成度、流畅度和协议遵守情况）。物体按 GM-100 规范标准化，每条轨迹中物体位姿随机化以增强环境多样性。
遥操作遵循严格准则：保持末端执行器间隙、接触时动作缓慢、确保起始/结束视觉状态清晰。自动过滤移除技术异常，再通过多视角视频人工审核排除不符合协议或场景杂乱的片段。
测试集包含约 50% 未出现在训练集中最频繁 100 个动作中的原子动作，以确保强泛化评估。图 3a 和 3b 中的词云可视化了训练/测试拆分中的动作类别分布。
所有轨迹均处理以符合 GM-100 任务规范，元数据包括标准化物体信息、随机位姿和质量评级的轨迹标签。未提及裁剪；处理重点在于分割、过滤和指令标注。

方法

作者采用混合 Transformer（MoT）架构，将预训练视觉语言模型（VLM）与动作生成模块结合，构成 LingBot-VLA 的核心。该框架通过独立的 Transformer 路径处理视觉-语言和动作模态，并通过共享自注意力机制耦合，实现逐层统一的序列建模。VLM（具体为 Qwen2.5-VL）编码多视角操作图像和任务指令，而动作专家处理包含初始状态和动作块的本体感知序列。该设计确保 VLM 的高维语义先验在所有层引导动作生成，同时通过模态特定处理最小化跨模态干扰。

在时间戳 $t$ 的联合建模序列为观察上下文 $\mathbf{O}_t$ 与动作块 $\mathbf{A}_t$ 的拼接。观察上下文定义为 $\mathbf{O}_t = [\mathbf{I}_t^1, \mathbf{I}_t^2, \mathbf{I}_t^3, \mathbf{T}_t, \mathbf{s}_t]$ ，包含双臂机器人三视角操作图像的标记、任务指令 $\mathbf{T}_t$ 和机器人状态 $\mathbf{s}_t$ 。动作序列表示为 $\mathbf{A}_t = [\mathbf{a}_t, \mathbf{a}_{t+1}, \ldots, \mathbf{a}_{t+T-1}]$ ，其中 $T$ 为动作块长度，预训练时设为 50。训练目标是使用流匹配（Flow Matching）建模条件分布 $p(\mathbf{A}_t|\mathbf{O}_t)$ ，以实现精确机器人控制所需的平滑连续动作建模。

对于流时间步 $s \in [0, 1]$ ，中间动作 $\mathbf{A}_{t,s}$ 通过真实动作 $\mathbf{A}_t$ 与高斯噪声 $\epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ 的线性插值得到，即 $\mathbf{A}_{t,s} = s\mathbf{A}_t + (1-s)\epsilon$ 。 $\mathbf{A}_{t,s}$ 的条件分布表示为 $p(\mathbf{A}_{t,s}|\mathbf{A}_t) = \mathcal{N}(s\mathbf{A}_t, (1-s)\mathbf{I})$ 。动作专家 $v_{\boldsymbol{\theta}}$ 通过最小化流匹配目标训练以预测条件向量场：

\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{s \sim \mathcal{U}[0,1], \mathbf{A}_t, \epsilon} \left\| v_{\boldsymbol{\theta}}(\mathbf{A}_{t,s}, \mathbf{O}_t, s) - (\mathbf{A}_t - \epsilon) \right\|^2,

其中目标速度源自理想向量场 $\mathbf{A}_t - \epsilon$ 。

为确保正确信息流，对联合序列 $[\mathbf{O}_t, \mathbf{A}_t]$ 实施块级因果注意力。序列划分为三个功能块： $[\mathbf{I}_t^1, \mathbf{I}_t^2, \mathbf{I}_t^3, \mathbf{T}_t]$ 、 $[\mathbf{s}_t]$ 和 $[\mathbf{a}_t, \mathbf{a}_{t+1}, \ldots, \mathbf{a}_{t+T-1}]$ 。因果掩码限制注意力，使得每个块内的标记仅能关注自身及先前块，而块内标记使用双向注意力。这防止未来动作标记的信息泄露到观察表示中。

为增强空间感知和执行鲁棒性，采用视觉蒸馏方法。与三视角图像对应的可学习查询 $[\mathbf{Q}_t^1, \mathbf{Q}_t^2, \mathbf{Q}_t^3]$ 由 VLM 处理，并与 LingBot-Depth 提供的深度标记 $[\mathbf{D}_t^1, \mathbf{D}_t^2, \mathbf{D}_t^3]$ 对齐。该对齐通过最小化蒸馏损失 $\mathcal{L}_{\mathrm{distill}}$ 实现：

\mathcal{L}_{\mathrm{distill}} = \mathbb{E}_{\mathbf{O}_t} \left| \mathrm{Proj}(\mathbf{Q}_t) - \mathbf{D}_t \right|,

其中 $\mathrm{Proj}(\cdot)$ 是使用交叉注意力进行维度对齐的投影层。该整合将几何信息注入模型，提升复杂操作任务中的感知能力。

实验

在 3 个平台（AgileX、Agibot G1、Galaxea R1Pro）的 25 台机器人上使用 GM-100 基准（100 个任务，39K 演示）评估 LingBot-VLA，完成 22.5K 次受控试验，与 3 个基线在相同条件下对比。
在真实世界 GM-100 上，带深度的 LingBot-VLA 相比 π0.5 在各平台平均提升 +4.28% 成功率和 +7.76% 进度得分；持续优于 WALL-OSS 和 GR00T N1.6，GR00T 因预训练对齐在特定平台表现更优。
在 RoboTwin 2.0 仿真中，带深度的 LingBot-VLA 在清洁场景下相比 π0.5 提升 +5.82% 成功率，在随机化场景下提升 +9.92% 成功率，利用深度增强的空间先验实现鲁棒的多任务泛化。
训练吞吐量分析显示，LingBot 的代码库在 Qwen2.5-VL-3B-π 和 PaliGemma-3B-pt-224-π 上实现最快样本/秒，高效扩展至 256 GPU，优于 StarVLA、Dexbotic 和 OpenPI。
扩展实验显示，预训练数据从 3K 小时增至 20K 小时时，成功率和进度得分持续提升，跨平台对齐证实了鲁棒泛化能力。
在 Agibot G1 平台上的数据效率测试表明，仅使用每任务 80 条演示的 LingBot-VLA 优于使用 130 条演示的 π0.5，且随着数据增加性能差距扩大。

作者使用大规模真实世界基准，在三个机器人平台上评估 LingBot-VLA 与三个最先进的基线，结果显示，不带深度的 LingBot-VLA 在成功率和进度得分上均优于 WALL-OSS 和 GR00T N1.6。通过引入深度信息，带深度的 LingBot-VLA 在所有平台上相比 π₀.₅ 平均提升 4.28% 成功率和 7.76% 进度得分。

作者在 Agibot G1 平台上使用数据高效的后训练实验比较 LingBot-VLA 与 π₀.₅ 基线，显示 LingBot-VLA 使用更少演示即可实现更高的成功率和进度得分。结果表明，即使每任务仅训练 80 条演示，LingBot-VLA 仍优于 π₀.₅，且随着演示数量增加性能差距扩大，证明其卓越的数据效率。

结果显示，LingBot-VLA 在所有平台上均优于 $\pi_{0.5}$ 基线，引入深度信息的变体实现最高平均成功率 86.68%。作者使用受控评估协议确保公平比较，证明基于深度的空间信息显著提升真实世界任务表现。

结果显示，LingBot-VLA 在三个机器人平台上均优于所有基线，无论成功率还是进度得分，引入深度信息的变体表现最佳。模型展现出强大的泛化能力，体现在各平台及所有实体平均表现上均持续优于基线。

作者使用大规模真实世界基准，在三个机器人平台上评估 LingBot-VLA 与三个最先进的基线，结果显示，不带深度的 LingBot-VLA 在成功率和进度得分上均优于 WALL-OSS 和 GR00T N1.6。通过引入深度信息，带深度的 LingBot-VLA 在所有平台上相比 π₀.₅ 实现 4.28% 更高的成功率和 7.76% 更高的进度得分，证明通过增强空间理解提升了性能。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

15 天前

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma

摘要

一句话总结

主要贡献

LingBot-VLA 在来自 9 个平台的 20,000 小时真实双臂机器人数据上训练，证明了 VLA 性能随数据量增加而显著提升，且在当前规模下未出现饱和，从而在跨任务和跨实体场景中实现更强的泛化能力。
该模型在 3 个机器人平台上进行严格的真实世界评估，完成 100 个多样化任务（每任务 130 个回合），表现优于竞争对手，建立了多平台 VLA 评估的新基准。
优化后的训练代码库在 8-GPU 设置下实现每 GPU 每秒 261 个样本，相比现有 VLA 框架提速 1.5–2.8 倍，降低计算成本并加速部署就绪模型的开发。

引言

数据集

作者使用一个大规模预训练数据集，数据来源于 9 个双臂机器人平台的遥操作数据，包括 AgiBot G1、AgileX、Galaxea R1Lite/Pro、Realman Rs-02、Leju KUAVO 4 Pro、Oinglong、ARX Lift2 和 Bimanual Franka——每个平台具有不同的自由度机械臂、相机配置和夹爪设置。
对于语言标注，人工标注员将多视角机器人视频分割为与原子动作对齐的片段，并裁剪静态的起始/结束帧。随后使用 Qwen3-VL-235B-A22B 为每个片段生成精确的任务和子任务指令。
对于 GM-100 基准，通过在三个平台上遥操作收集每任务 150 条原始轨迹；保留其中表现最佳的 130 条（根据任务完成度、流畅度和协议遵守情况）。物体按 GM-100 规范标准化，每条轨迹中物体位姿随机化以增强环境多样性。
遥操作遵循严格准则：保持末端执行器间隙、接触时动作缓慢、确保起始/结束视觉状态清晰。自动过滤移除技术异常，再通过多视角视频人工审核排除不符合协议或场景杂乱的片段。
测试集包含约 50% 未出现在训练集中最频繁 100 个动作中的原子动作，以确保强泛化评估。图 3a 和 3b 中的词云可视化了训练/测试拆分中的动作类别分布。
所有轨迹均处理以符合 GM-100 任务规范，元数据包括标准化物体信息、随机位姿和质量评级的轨迹标签。未提及裁剪；处理重点在于分割、过滤和指令标注。

方法

\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{s \sim \mathcal{U}[0,1], \mathbf{A}_t, \epsilon} \left\| v_{\boldsymbol{\theta}}(\mathbf{A}_{t,s}, \mathbf{O}_t, s) - (\mathbf{A}_t - \epsilon) \right\|^2,

其中目标速度源自理想向量场 $\mathbf{A}_t - \epsilon$ 。

\mathcal{L}_{\mathrm{distill}} = \mathbb{E}_{\mathbf{O}_t} \left| \mathrm{Proj}(\mathbf{Q}_t) - \mathbf{D}_t \right|,

其中 $\mathrm{Proj}(\cdot)$ 是使用交叉注意力进行维度对齐的投影层。该整合将几何信息注入模型，提升复杂操作任务中的感知能力。

实验

在 3 个平台（AgileX、Agibot G1、Galaxea R1Pro）的 25 台机器人上使用 GM-100 基准（100 个任务，39K 演示）评估 LingBot-VLA，完成 22.5K 次受控试验，与 3 个基线在相同条件下对比。
在真实世界 GM-100 上，带深度的 LingBot-VLA 相比 π0.5 在各平台平均提升 +4.28% 成功率和 +7.76% 进度得分；持续优于 WALL-OSS 和 GR00T N1.6，GR00T 因预训练对齐在特定平台表现更优。
在 RoboTwin 2.0 仿真中，带深度的 LingBot-VLA 在清洁场景下相比 π0.5 提升 +5.82% 成功率，在随机化场景下提升 +9.92% 成功率，利用深度增强的空间先验实现鲁棒的多任务泛化。
训练吞吐量分析显示，LingBot 的代码库在 Qwen2.5-VL-3B-π 和 PaliGemma-3B-pt-224-π 上实现最快样本/秒，高效扩展至 256 GPU，优于 StarVLA、Dexbotic 和 OpenPI。
扩展实验显示，预训练数据从 3K 小时增至 20K 小时时，成功率和进度得分持续提升，跨平台对齐证实了鲁棒泛化能力。
在 Agibot G1 平台上的数据效率测试表明，仅使用每任务 80 条演示的 LingBot-VLA 优于使用 130 条演示的 π0.5，且随着数据增加性能差距扩大。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

一种实用的VLA基础模型

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma15 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一种实用的VLA基础模型

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma15 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

一种实用的VLA基础模型

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma15 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma

Wei Wu Fan Lu Yunnan Wang Shuai Yang Shi Liu Fangjing Wang Qian Zhu He Sun Yong Wang Shuailei Ma