
摘要
成功的通用型视觉-语言-动作(Vision-Language-Action, VLA)模型依赖于在多种机器人平台上的有效训练,并需利用大规模、跨体感(cross-embodiment)、异构的数据集。为促进并充分利用丰富多样的机器人数据源所固有的异构性,我们提出了一种新颖的软提示(Soft Prompt)方法,其仅引入极少量新增参数。该方法将提示学习(prompt learning)思想融入跨体感机器人学习中,并为每种不同的数据源分别引入可学习的嵌入(embeddings)集合。这些嵌入作为具有体感特异性的提示,协同作用,使VLA模型能够有效挖掘和利用不同体感之间的多样化特征。我们提出的新型X-VLA架构——一种基于流匹配(flow-matching)的VLA结构——完全依赖于软提示化的标准Transformer编码器,兼具可扩展性与简洁性。在6个仿真环境及3台真实机器人上的综合评估表明,我们所实现的0.9B参数规模的X-VLA-0.9B模型,在一系列基准测试中均达到当前最优(SOTA)性能,展现出在广泛能力维度上的卓越表现,涵盖灵活灵巧性、跨体感、跨环境与跨任务的快速适应能力等。