Command Palette
Search for a command to run...
Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

摘要
基于大规模、多样化数据集预训练的视觉-语言-动作(Vision-Language-Action, VLA)模型在通用机器人操作任务中展现出巨大的潜力。然而,将这些模型适配到下游任务时仍面临一个主要瓶颈,尤其是在机器人的物理形态或任务本身与预训练数据存在差异的情况下。这种差异导致动作分布之间出现显著不匹配,从而需要大量数据和计算资源才能实现有效的微调。为应对这一挑战,我们提出了一种新颖、数据高效且即插即用的适配框架——对齐后引导(Align-Then-stEer, \texttt{ATE})。\texttt{ATE} 首先通过构建统一的隐空间,对不同动作空间进行对齐,其中基于反向KL散度约束的变分自编码器将适配动作嵌入到预训练动作隐空间的模式中。随后,在微调过程中,该框架通过一种引导机制,调控基于扩散模型或流模型的VLA生成过程,推动模型输出分布向目标领域逼近。我们在仿真环境和真实世界中开展了广泛的跨形态与跨任务操作实验。与直接微调代表性VLA模型相比,我们的方法在仿真环境中将平均多任务成功率提升最高达9.8%,在真实世界跨形态设置中更是实现了32%的成功率提升。本研究提出了一种通用且轻量级的解决方案,显著提升了VLA模型在新机器人平台与新任务上的实际部署可行性。