18 小时前

Sijin Chen Kaixuan Jiang Haixin Shi Yanhui Wang Weiheng Zhong Haosheng Li Bo Jiang Yuxiao Liu Xihui Liu

摘要

我们研究能否从人类动作中为配备平行夹爪的双臂机器人学习新颖的操作技能。人类动作数据廉价、丰富且多样，是扩大机器人学习规模的最有前景资源之一。然而，将技能从人类迁移至机器人仍很困难：多数先前工作将人类仅视为另一种双臂六自由度具身，其中手部姿态估计存在噪声，且人类手指的接触模式与平行夹爪根本不同。因此，我们认为从人类数据中学习包含旋转的动作信号是次优的，转而提出一种桥梁动作表示：在初始头部相机坐标系内的相对手腕平移，这是一个人类和机器人共享的动作空间。为应对不同具身中可能缺少某些动作分量的情况，我们构建了一个类似π0的视觉-语言-动作模型，其中包含交错的动作令牌和注意力掩码。在一系列新颖的双臂操作任务中，我们的桥梁动作将人类操作知识迁移至机器人的效果远优于含噪的六自由度人类动作，并且随着人类数据量的增加而扩展。

一句话总结

为了将人类操作技能迁移到带有平行夹爪的双臂机器人上，香港大学MMLab与字节跳动Seed的研究者提出了一种桥接动作表示法——在初始头部相机坐标系下的相对手腕平移——以及一个类似于 $\pi_{0}$ 的视觉-语言-动作模型，该模型采用交错排列的动作token和注意力掩蔽，其表现优于带噪的六自由度人体动作，并能随人类数据量的增加而扩展。

核心贡献

一种基于平移的桥接动作表示法，使用在初始头部相机坐标系下的相对手腕平移，可为人类和机器人共享，以此避免不可靠的手腕旋转，并实现跨具身的有效技能迁移。
一种视觉-语言-动作模型，配有交错排列的动作token和注意力掩蔽，可处理不同数据源中缺失的动作分量，从而让人类动作与机器人动作能够无缝协同训练。
在全新的双臂操作任务上的实验表明，该桥接动作将人类操作知识迁移到机器人的效果远优于带噪的六自由度人体动作，并且性能随人类数据量的增加而正向扩展。

引言

在日常环境中采集的人类操作数据为训练机器人策略提供了一种可扩展且成本较低的方式，但从这些数据中学习却因手部姿态估计的噪声以及人手旋转与平行夹爪运动学之间的不匹配而变得复杂。此前的工作通常使用手腕姿态或隐式动作，但纳入旋转信号往往不可靠且次优。作者通过舍弃手腕旋转，转而学习一种仅在头部相机坐标系下使用手腕平移的共享桥接表示来解决这些难题。他们将此与一种交错排列的动作token设计相结合，该设计能够掩蔽缺失的动作分量，从而使统一模型能够将大规模人类数据中的操作知识迁移到双臂机器人上，而无需包含旋转的监督。

方法

作者提出了一种框架，通过引入一种与具身无关的共享动作表示以及一个经过多阶段课程训练的视觉-语言-动作模型，将人类演示中的操作技能迁移到双臂机器人上。

运动桥接动作表示法 该方法没有直接采纳手部姿态估计器得出的六自由度手腕姿态（这些姿态因旋转估计噪声以及手指与平行夹爪接触模式不匹配而存在问题），而是定义了一个纯粹基于手腕平移的桥接信号。其核心洞察是，人类和机器人都基于自身所见做出动作；因此，从头部相机观察到的相对手腕平移可作为一种共同动作。具体而言，在时间 $t$ 的世界坐标系下的手腕姿态 $\mathbf{W}_{w}^{t} \in \mathbb{SE}(3)$ 使用逆相机姿态 $\mathbf{T}_{w\leftarrow c}^{t}$ 映射到头部相机坐标系 $c_{t}$ ，得到 $\mathbf{W}_{c_{t}}^{t+i} = (\mathbf{T}_{w\leftarrow c}^{t})^{-1}\mathbf{W}_{w}^{t+i}$ 。在长度为 $k$ 的未来窗口上的平移分量定义了桥接动作：

\boldsymbol {a} _ {t + i} ^ {\mathrm{3D\text{-}wrist}} = \Delta \mathbf {W} ^ {\mathrm{3D}} = \boldsymbol {t} \left(\mathbf {W} _ {c _ {t}} ^ {t + i}\right) - \boldsymbol {t} \left(\mathbf {W} _ {c _ {t}} ^ {t}\right), \quad i = 1, \dots, k,

其中 $\boldsymbol{t}(\cdot)$ 提取 $3\times1$ 的平移向量。对于双臂场景，将两臂的手腕平移拼接，得到 $\mathbf{a}_{t}^{3\mathrm{D\text{-}wrist}}\in \mathbb{R}^{k\times6}$ 。这一仅包含平移的信号在共享的观测视角下具有物理意义，对旋转噪声鲁棒，且与具身无关。

与桥接动作并行的机器人特异的六自由度末端执行器动作定义为两个 $\mathbb{SE}(3)$ 手腕框架之间的相对姿态：

\boldsymbol {a} _ {t + i} ^ {\mathrm{6D\text{-}eef}} = \Delta \mathbf {W} ^ {\mathrm{6D}} = \left(\mathbf {W} _ {w} ^ {t}\right) ^ {- 1} \mathbf {W} _ {w} ^ {t + i},

将其转换为笛卡尔坐标和欧拉角后，可得到双臂的 $\mathbf{a}_t^{6\mathrm{D\text{-}eef}}\in \mathbb{R}^{k\times12}$ 。夹爪动作是一个二进制块 $\mathbf{a}_{t}^{\mathrm{gripper}} \in \mathbb{R}^{k \times 2}$ ，表示每个夹爪的开或合；对于实验室内记录的人类数据，将手部闭合作为夹爪动作的代理标注。

所有动作分量统一为一个动作向量 $\mathbf{a}_{t} = (\mathbf{a}_{t}^{3\mathrm{D\text{-}wrist}}, \mathbf{a}_{t}^{6\mathrm{D\text{-}eef}}, \mathbf{a}_{t}^{\mathrm{gripper}})$ 。不同数据源提供不同的子集：人类数据仅产生桥接信号，而机器人数据还额外提供六自由度和夹爪动作。在训练时，只对可靠可用的分量施加监督。

交错动作序列的VLA模型 模型架构为一个端到端的视觉-语言-动作（VLA）模型，类似于 $\pi_{0}$ ，记为 $\pi_{\theta}(l, o_{t})$ ，它以语言指令 $l$ 以及来自头部相机和两个手腕相机的视觉观测 $o_{t}$ 为条件，生成动作块 $\mathbf{a}_{t:t+k}$ 。对于缺少腕部视角的人类数据，用空白图像进行填充。

该模型将视觉-语言处理与动作生成分开，以平衡不同目标。一个预训练的视觉-语言模型处理视觉和语言token $(o_{t}, l)$ 并产生键值缓存。该缓存随后作为上下文为动作Transformer服务，动作Transformer通过流匹配生成动作块。两个模块共享自注意力层，但使用不同的参数集。

一项核心设计是动作token的交错排列顺序： $\mathbf{a}^{3\mathrm{D\text{-}wrist}} \rightarrow \mathbf{a}^{6\mathrm{D\text{-}eef}} \rightarrow \mathbf{a}^{\mathrm{gripper}}$ 。该顺序编码了两个结构先验：其一，共享的桥接信号应被六自由度动作token关注，从而在注意力模式内实现操作知识从人类到机器人的显式迁移；其二，夹爪的致动通常在末端执行器到达目标后进行。当某一数据源缺少某个动作分量时，相应的token会在注意力层中被掩蔽，并从损失计算中排除，例如人类数据中的六自由度末端执行器动作。

动作生成采用流匹配进行训练。给定一个时间步 $\tau \in (0,1)$ 和高斯噪声 $\epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{I})$ ，模型接收带噪动作块 $\mathbf{a}_t^\tau = \tau \epsilon + (1 - \tau)\mathbf{a}_t$ 以及观测 $o_t$ 和语言 $l$ ，预测一个从噪声指向干净动作的速度场 $\hat{v}(\mathbf{a}_t^\tau, o_t, l, \tau)$ 。真实速度为 $v^{*} = \epsilon - \mathbf{a}_t$ ，流匹配损失为：

\mathcal{L}_{\mathrm{FM}} = \| \hat{v}(\mathbf{a}_{t}^{\tau}, o_{t}, l, \tau) - v^{*} \|_{2}^{2}.

该损失仅应用于每个训练样本中存在的动作分量。在推理时，模型通过使用欧拉法以步长 $\Delta\tau=0.2$ 从 $\tau=0$ 积分至 $\tau=1$ ，只生成机器人可执行的分量 $a^{6D\text{-}eef}$ 和 $a^{gripper}$ 。

为防止对动作数据的过拟合，该VLA模型与一系列视觉-语言数据协同训练，使用标准的下一token预测目标 $\mathcal{L}_{\mathrm{NTP}}$ 。每个训练批次要么包含动作轨迹（使用 $\mathcal{L}_{\mathrm{FM}}$ ），要么包含视觉-语言示例（使用 $\mathcal{L}_{\mathrm{NTP}}$ ），以平衡感知和动作能力。

训练策略 模型分三个阶段进行训练，以在保留从人类数据学到的技能的同时，逐步引入与具身相关的定位。

阶段一：在人类动作上预训练。 人类演示提供了规模可观的丰富技能和场景多样性。大约600小时的人类动作数据（包括以自我为中心的操作片段和实验室内录制数据）仅通过 $\mathcal{L}_{\mathrm{FM}}^{3\mathrm{D\text{-}wrist}}$ 来训练桥接信号。此时不涉及任何机器人特异的组件，因此模型学到了可泛化的运动先验。

阶段二：人类-机器人协同训练。 为了将桥接表示落实为可执行的机器人命令，模型同时接触真实的机器人轨迹和少量特定任务的实验室内人类动作。机器人数据包含覆盖众多物体的通用抓取与放置片段，而实验室内操作者用手模仿机器人夹爪以提供夹爪标注。在机器人数据上，所有三个损失（ $\mathcal{L}_{\mathrm{FM}}^{3\mathrm{D\text{-}wrist}}$ 、 $\mathcal{L}_{\mathrm{FM}}^{6\mathrm{D\text{-}eef}}$ 、 $\mathcal{L}_{\mathrm{FM}}^{\mathrm{gripper}}$ ）均处于激活状态。至关重要的是，在机器人轨迹的训练过程中，目标要么是桥接动作本身，要么是六自由度动作替代到相同位置；这种绑定策略显式地将共享隐式运动与机器人的具体动作空间对齐，并被证明对迁移至关重要。

阶段三：小样本机器人后训练。 为研究数据效率，每项任务仅使用10次遥操作演示进行微调。最后阶段在少量机器人轨迹上进行协同训练，在极少监督下使模型进一步适应目标任务。

在实现层面，VLA模型采用混合Transformer架构，参数量约4B，并由预训练的VLM初始化。阶段一以1024的批量大小训练所有参数共40万次迭代；阶段二在机器人和人类数据上以256的批量大小继续协同训练12万次迭代；阶段三以相同批量大小微调2.5万次迭代。为了加速收敛，在每个训练批次内通过重复VLM的键值缓存将动作Transformer的有效批量大小提升四倍。

实验

评估覆盖了使用双臂机器人和实验室内人类动作数据的15项多样化操作任务，通过成功率和细粒度进度来衡量性能。实验表明，仅使用平移的桥接动作表示能够将技能迁移推广到抓取与放置之外，并能有效利用大规模人类数据的预训练，且优于六自由度人体动作，使机器人行为更加稳定。仅使用人类数据的预训练与可执行的机器人动作空间对齐，提升了小样本后训练的数据效率；在机器人数据上训练桥接目标至关重要；该方法在具身多样性学习方面展现了潜力，但在接触密集型任务中精度不足仍是一个局限，在这些任务中旋转信息会有所帮助。

表格定义了每个数据源所监督的动作分量：野外人类片段仅提供头部相机视角下的平移手腕动作，实验室内人类数据加入了夹爪监督，机器人遥操作则提供完整的六维末端执行器动作。从仅有人类数据中学习这种桥接手平移能够迁移到机器人的可执行动作空间，降低六维末端执行器和夹爪动作的训练损失，并提升下游任务表现。桥接动作与完整六维动作之间的对齐关系得到了实证验证，且随着具身间视觉和动作噪声差距的缩小，该表示的有效性也随之提升。野外人类数据只能监督手腕运动的平移分量，不能监督夹爪或完整的六自由度动作。仅在桥接手平移上使用人类数据预训练可降低六维末端执行器和夹爪动作的协同训练损失。将预测的桥接平移投影到同一头部相机坐标系后，与预测的六维末端执行器动作紧密对齐。当将特定任务的机器人演示转换为桥接平移时，性能大幅提升，这证实该表示有效且受益于观测和噪声差距的减小。接触密集型任务的失败与舍弃人类数据中手腕旋转监督的决定相关，表明引入有限的可靠旋转信息可能有所帮助。

与使用六自由度人体手腕动作相比，使用仅平移的桥接动作进行协同训练能显著提升整体任务进度和成功率，因为更简单的表示带来了更稳定的学习行为，并与机器人的可执行动作空间紧密对齐。这种对齐使桥接信号能够作为机器人动作的可靠替代，但在严重依赖精确旋转控制的任务中，性能仍受到限制。整体进度从使用六自由度人体动作时的34.67%提升至仅平移桥接动作的44.58%，成功率几乎翻倍（12.50% vs. 22.50%）。桥接动作在各类任务中与六自由度机器人动作高度匹配，这解释了为何仅平移的预训练能有效迁移，而舍弃旋转信息则会导致在吸管插入和抽屉打开等接触密集型任务中失败。

使用不可执行的手腕平移动作进行仅人类数据预训练，显著提升了小样本机器人后训练的数据效率，整体进度从53.8%提高到71.2%，成功率从35.8%提高到55.0%。增益在马克杯/杯子等任务上最为显著，而在抽屉类任务上有所下降，揭示了任务相关的迁移特性。桥接动作与机器人完整的六自由度末端执行器动作紧密对齐，这解释了为何对这些不可执行信号的监督能够迁移到可执行技能上。尽管模型在预训练阶段从未见过可执行动作，但整体进度和成功率仍随人类数据预训练而显著提升。马克杯/杯子任务受益最大：成功率从6.3%跃升至46.9%，而抽屉任务在预训练后进度和成功率均出现下降。桥接动作的投影在相机视图中与六自由度末端执行器动作高度匹配，表明存在一种有助于跨具身迁移的共享表示。

在协同训练期间对机器人数据施加桥接动作的监督，对于有效的操作技能迁移至关重要。移除这一目标导致总体成功率从38.33%下降至12.50%，所有任务组（包括微波炉、抽屉、马克杯及其他任务）的性能均出现一致的下降。结果证实，桥接信号使机器人的学习与来自人类演示的可迁移知识保持一致。当包含桥接目标时，总体成功率约提升至三倍。在没有桥接监督的情况下，马克杯和杯子任务完全失败（成功率为0%）。进度分数也普遍下降，表明缺乏桥接信号会削弱对任务意图的理解。

当通过使用无观测不匹配和低动作噪声的机器人数据来消除具身差异时，桥接目标所实现的技能迁移显著优于与人类数据协同训练的方式。增益在马克杯/杯子和抽屉任务上尤其显著，成功率提高了一倍以上，表明随着视觉和动作差异的缩小，桥接表示的有效性不断增强。与默认的人类协同训练方法相比，上限变体将整体进度从约60%提升至近74%，整体成功率从38%提升至56%。马克杯/杯子任务的相对提升最大，成功率从15.6%上升至53.1%，进度从52.5%上升至81.3%。所有任务组均受益，证实桥接表示本身提供了一种有效的技能迁移媒介，并能随动作和感知质量的提升而扩展。

评估设置使用野外人类视频和机器人遥操作数据，通过省略旋转的桥接手平移动作来训练策略。用这种仅平移的信号进行预训练或协同训练，可提升下游任务表现和小样本数据效率，因为桥接表示与机器人完整的六维末端执行器动作紧密对齐，尤其在具身间的视觉和动作噪声差距最小时。若在机器人协同训练期间去除桥接监督，这一优势便会消失，而需要旋转的接触密集型任务仍然表现不佳，这表明仅平移的桥接提供了一种稳定、可迁移的支架，而有限的旋转信息或许能弥补其尚存的弱点。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

18 小时前

Sijin Chen Kaixuan Jiang Haixin Shi Yanhui Wang Weiheng Zhong Haosheng Li Bo Jiang Yuxiao Liu Xihui Liu

摘要

一句话总结

核心贡献

一种基于平移的桥接动作表示法，使用在初始头部相机坐标系下的相对手腕平移，可为人类和机器人共享，以此避免不可靠的手腕旋转，并实现跨具身的有效技能迁移。
一种视觉-语言-动作模型，配有交错排列的动作token和注意力掩蔽，可处理不同数据源中缺失的动作分量，从而让人类动作与机器人动作能够无缝协同训练。
在全新的双臂操作任务上的实验表明，该桥接动作将人类操作知识迁移到机器人的效果远优于带噪的六自由度人体动作，并且性能随人类数据量的增加而正向扩展。

引言

方法

\boldsymbol {a} _ {t + i} ^ {\mathrm{3D\text{-}wrist}} = \Delta \mathbf {W} ^ {\mathrm{3D}} = \boldsymbol {t} \left(\mathbf {W} _ {c _ {t}} ^ {t + i}\right) - \boldsymbol {t} \left(\mathbf {W} _ {c _ {t}} ^ {t}\right), \quad i = 1, \dots, k,

与桥接动作并行的机器人特异的六自由度末端执行器动作定义为两个 $\mathbb{SE}(3)$ 手腕框架之间的相对姿态：

\boldsymbol {a} _ {t + i} ^ {\mathrm{6D\text{-}eef}} = \Delta \mathbf {W} ^ {\mathrm{6D}} = \left(\mathbf {W} _ {w} ^ {t}\right) ^ {- 1} \mathbf {W} _ {w} ^ {t + i},

\mathcal{L}_{\mathrm{FM}} = \| \hat{v}(\mathbf{a}_{t}^{\tau}, o_{t}, l, \tau) - v^{*} \|_{2}^{2}.

训练策略 模型分三个阶段进行训练，以在保留从人类数据学到的技能的同时，逐步引入与具身相关的定位。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

翻译作为桥梁动作：将人类操作技能迁移至机器人

Sijin Chen Kaixuan Jiang Haixin Shi Yanhui Wang Weiheng Zhong Haosheng Li Bo Jiang Yuxiao Liu Xihui Liu

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

翻译作为桥梁动作：将人类操作技能迁移至机器人

Sijin Chen Kaixuan Jiang Haixin Shi Yanhui Wang Weiheng Zhong Haosheng Li Bo Jiang Yuxiao Liu Xihui Liu

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

翻译作为桥梁动作：将人类操作技能迁移至机器人

Sijin Chen Kaixuan Jiang Haixin Shi Yanhui Wang Weiheng Zhong Haosheng Li Bo Jiang Yuxiao Liu Xihui Liu

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters