Command Palette
Search for a command to run...
人形-GPT:用于零样本运动跟踪的数据与结构扩展
人形-GPT:用于零样本运动跟踪的数据与结构扩展
摘要
本文提出Humanoid-GPT,这是一种采用因果注意力机制的GPT风格Transformer,基于十亿级动作语料库进行训练,旨在实现全身控制。与以往受限于数据稀缺以及敏捷性与泛化性权衡的浅层MLP跟踪器不同,Humanoid-GPT在包含20亿帧重定向数据的语料库上进行预训练,该语料库整合了所有主流动作捕捉数据集与大规模内部采集数据。通过同时扩展数据规模与模型容量,我们获得了一个单一的生成式Transformer,该模型不仅能够跟踪高度动态的行为,还实现了对未见动作与控制任务前所未有的零样本泛化能力。大量实验与缩放分析表明,本模型确立了新的性能前沿,在同步跟踪高度动态与复杂动作的同时,展现出对未见任务的稳健零样本泛化能力。
一句话总结
Humanoid-GPT 是一种带有因果注意力机制的 GPT 风格 Transformer,通过在统一的 20 亿帧重定向语料库上进行预训练,同时扩展数据与模型容量,实现了对未见动作与控制任务的卓越零样本泛化能力。该方法有效克服了早期浅层 MLP 跟踪器面临的数据稀缺以及敏捷性与泛化性之间的权衡问题,同时能够精准跟踪高动态的全身行为。
核心贡献
- Humanoid-GPT 是一种带有因果注意力机制的 GPT 风格 Transformer,能够将数百个强化学习动作专家蒸馏为单一生成控制器。该架构通过因果时间注意力预测每个关节的 PD 目标值,既符合实时部署约束,又能突破浅层 MLP 的局限,实现模型容量的平滑扩展。
- 本文引入谐波运动嵌入(HME)作为表征学习工具,直接从原始录制数据中量化并组织动作多样性。该方法支持训练过程中的多样性感知与分布均衡采样,在防止模型对高频动作模式过拟合的同时,保持其对多样化行为的控制能力。
- 该系统在整合主流动作捕捉数据集与大规模内部录制数据的 20 亿帧精选语料库上进行训练,实现了对未见动作与控制任务的稳健零样本泛化。在 Unitree-G1 硬件上进行的广泛仿真与实地部署确立了明确的可扩展性规律,清晰映射了数据量、模型规模与跟踪精度之间的关系。
引言
对于必须在未见过的任务、风格与环境下执行稳健全身行为的具身 AI 系统而言,人形机器人动作跟踪至关重要。以往方法通常依赖在有限动作数据集上训练的浅层多层感知机(MLP),这导致跟踪敏捷性与零样本泛化能力之间始终存在难以调和的权衡。这些受限于容量的架构在非因果设计方面也存在不足,且随着数据量的增加性能容易陷入瓶颈。为突破这些瓶颈,本研究提出 Humanoid-GPT,这是一种带有因果注意力机制的 GPT 风格 Transformer,在精心整理的 20 亿帧动作语料库上进行训练。通过同时扩展数据与模型容量,并引入多样性感知采样以及来自强化学习专家的稳定蒸馏机制,该系统在真实硬件上实现了对高动态及未见人类动作的统一敏捷跟踪与稳健零样本泛化。
数据集
- 构成与来源: 研究团队通过整合四个成熟数据集(AMASS、LAFAN1、MotionMillion 与 PHUMA)构建了统一的动作语料库,共同提供了涵盖广泛人类活动及具备物理基础的动作先验。
- 子集详情与过滤: 论文未披露各子集的具体规模或明确的混合比例。团队对全部数据应用了统一的过滤标准,移除了包含明确物体交互(如坐椅子、游泳或爬楼梯)的序列,以确保与纯场景驱动控制的兼容性。
- 处理与增强: 所有动作序列均借助现成的重定向框架,映射至 Unitree-G1 人形机器人的 29 自由度关节空间。为提升时间维度上的变化性与速度鲁棒性,研究采用了时间扭曲增强技术,对每个序列进行均匀的加速与减速处理,使最终数据集规模扩展至原始大小的约五倍。
- 使用与训练: 这份经过精心整理且符合物理规律的数据集作为 Humanoid-GPT 的基础训练数据,直接支持下游基于强化学习的专家策略训练。
方法
Humanoid-GPT 框架采用两阶段流水线设计,旨在实现人形机器人对任意人类动作的零样本跟踪。第一阶段涉及训练多样化的动作专家集合,每个专家专门针对特定的动作数据子集。为此,研究利用一种名为谐波运动嵌入(HME)的新型嵌入表示,将整个动作语料库划分为约 300 个簇。该嵌入的生成首先基于数据分区训练周期自编码器,以提取各关节的周期振幅与频率。针对每个动作序列,聚合这些关节级谐波特征的均值与标准差,构建紧凑的 HME 向量。随后,使用 K-Means 算法结合成对距离作为相似度度量对这些向量进行聚类,最终形成每个包含 1k 至 2k 个序列的簇,在确保簇内高度一致性的同时,保持对动作分布的广泛覆盖。
每个动作专家均通过基于近端策略优化(PPO)的强化学习(RL)方法进行训练,以跟踪其分配簇内的所有序列。策略网络表示为 π:G×S↦A,将当前特权机器人状态 stpriv.(包含各关节位置与速度、根部角速度、投影重力及上一时刻控制动作)与目标参考姿态 qtref 映射至底层电机动作 at。策略输出的动作经由 PD 控制器转换为执行器力矩。动作跟踪的目标是驱动机器人状态匹配目标姿态 gt=qtref,同时维持平衡与动态稳定性。奖励函数在身体关键点层面构建,整合了关键身体部位的位置、朝向与速度一致性项。具体而言,关键点奖励 Rkp(t) 由位置、旋转与速度分量组成,各分量均采用指数形式以温和惩罚偏差,并附加自碰撞惩罚与平滑性约束,以确保符合物理规律且稳定的跟踪效果。
流水线的第二阶段为蒸馏过程,旨在将已训练的所有动作专家知识整合至单一的统一策略中。该过程通过基于 Transformer 的通用跟踪器 Gθ 实现,并采用 DAgger 框架进行专家行为蒸馏。蒸馏过程被重新表述为序列建模问题,其中输入 token 嵌入 et 由当前本体感知状态 st 与目标参考姿态 qtref 拼接而成。包含这些 token 的长度为 H 的序列被输入带有时间因果掩码的 Transformer,使模型能够捕捉长程依赖关系与时间一致性。所有输出位置的动作均由教师输出的对应历史序列进行监督,从而实现单次前向传播覆盖多个时间步的高效训练。损失函数定义为 L(Gθ(et−H+1:t),a^t−H+1:t),其中 a^t−H+1:t 为教师动作的拼接序列。推理阶段,最大长度为 H 的历史 token 队列作为输入,最后一个位置输出的动作作为当前控制目标。
整体框架旨在充分发挥 Transformer 架构的优势,包括并行序列监督与自回归时间预测。该设计使模型能够隐式学习位置不变的时间预测,即使在 episode 初期历史信息有限的情况下,也能输出稳定且符合物理规律的控制结果。此外,框架引入了适用于动作跟踪的可扩展因果 Transformer,该设计契合在线跟踪不访问未来观测的约束,且在扩展性上优于 MLP 与非因果变体。多样化动作先验、可扩展架构与均衡分布采样的结合,确保了模型在广泛动作目标上的泛化能力。
实验
评估工作涵盖受控的 MuJoCo 仿真与 Unitree-G1 人形机器人的实地部署,旨在检验零样本动作跟踪能力、数据扩展趋势及架构鲁棒性。实验表明,同时扩展动作语料库多样性与 Transformer 容量可带来稳定提升,在稳定性与泛化性上均优于易出现早期饱和与过拟合的 MLP 和 TCN 基线。实地测试证实了模型在高度动态及未见编排动作和实时遥操作中的强大零样本迁移能力,硬件感知优化确保扩展后的模型维持满足实时全身控制所需的低延迟推理速度。
研究分析了多种架构与训练因素对动作跟踪模型性能的影响,重点关注零样本泛化能力。结果表明,增加簇数量、历史长度与环境数量均能提升跟踪成功率,说明更丰富且多样化的训练条件有助于增强模型稳定性与泛化能力。模型在不同配置下均表现出稳健性能,最优设置有效平衡了复杂度与有效性。簇数量的增加提升了跟踪成功率,表明更优的动作聚类能改善模型表现。更长的历史长度带来更高的成功率,反映出时间建模能力的提升。训练期间更大的环境数量导致更好的跟踪性能,凸显了多样化训练条件的重要性。
研究对比了不同主干架构在人形动作跟踪任务中的表现,并通过多项指标进行评估。结果显示,Humanoid-GPT 系列方法优于其他方案,其中 Humanoid-GPT-B 在所有测试主干中实现了位置误差与速度误差的最佳平衡。对比结果凸显了基于 Transformer 的模型在维持跟踪精度与稳定性方面,相较于 GMT、TWIST 与 Any2Track 等替代方案的显著优势。Humanoid-GPT 变体相比其他主干架构实现了更低的位置与速度误差。Humanoid-GPT-B 在 MPJPE 与 MPJVE 指标上均展现出最佳综合性能。基于 Transformer 的模型在跟踪精度与稳定性方面全面优于 GMT、TWIST 及 Any2Track 等替代主干。
研究分析了数据与模型规模扩展对零样本人形跟踪性能的影响,证实更大的数据集与更高容量的 Transformer 模型能够持续提升稳定性与精度。结果表明,Transformer 的扩展效率优于 MLP 与 TCN,在跟踪精度与鲁棒性方面取得显著进步,尤其在大规模动作数据训练下表现突出。该模型在仿真与真实环境中均展现出强大的零样本泛化能力,无需任务特定适配即可维持对多样化复杂动作的高保真全身跟踪。在零样本场景中,更大规模的数据集与更高容量的 Transformer 持续改善跟踪稳定性与精度。Transformer 在扩展效率与跟踪精度上均超越 MLP 与 TCN 基线,尤其在大规模数据下优势明显。模型展现出强劲的零样本泛化能力,在实地部署中无需任务特定调参即可成功跟踪多样化高动态动作。
研究对比了多种人形跟踪方法,重点考察模型架构、数据规模与零样本泛化的影响。结果表明,基于 Transformer 的模型在大规模动作数据训练下,相比基于 MLP 的方法实现了更优越的跟踪性能与稳定性。研究证实,同时扩展数据集与模型容量可带来零样本跟踪精度与真实环境迁移能力的持续改善。基于 Transformer 的模型在零样本跟踪精度与稳定性上优于基于 MLP 的方法。更大规模的数据集与模型容量在所有指标上均持续提升跟踪性能。所提方法在真实环境中无需任务特定微调即可实现强大的零样本泛化。
研究开展实验以评估 Humanoid-GPT 这一人形动作跟踪器的可扩展性与零样本泛化能力。研究分析了模型与数据规模扩展对仿真与真实环境跟踪性能的影响,证实更大规模的模型与数据集能够提升稳定性与精度,同时展现出从仿真到实体硬件的强大零样本迁移能力。研究包含针对架构选择与训练配置的消融实验,以深入理解其对性能的影响。更大规模的模型与数据集在仿真与真实环境中均持续提升跟踪精度与稳定性。Humanoid-GPT 实现了卓越的零样本泛化,在真实硬件上无需任务特定微调即可成功跟踪多样化复杂动作。模型性能随数据与容量扩展有效增长,超越了随规模增加易出现饱和或过拟合的基线架构。
实验对架构设计、训练配置与模型扩展进行了评估,旨在验证跨仿真与真实环境的零样本人形动作跟踪能力。结果表明,更丰富的训练条件、延长的时间历史以及基于 Transformer 的主干架构,相较于其他架构能持续提升跟踪稳定性与精度。同时扩展数据量与模型容量带来稳定的性能提升且未出现过拟合,证实了该框架对复杂动作的有效泛化能力。最终,该方法在无任务特定微调的情况下展现出稳健的仿真到现实迁移能力,确立了其可扩展性与实用价值。