清华团队发布0.9B参数小而强通用VLA模型X-VLA,刷新五项SOTA,实现零样本跨机器人迁移
在具身智能迈向大模型时代的关键节点,清华团队推出了一款仅0.9B参数却在五大权威仿真基准上全面刷新SOTA的通用视觉-语言-动作模型(VLA)——X-VLA。这一成果由詹仙园带领团队完成,其背后是一条贯穿他多年研究的清晰主线:如何用数据驱动的决策优化技术,让智能体在真实物理世界中更高效、更通用地解决问题。 詹仙园的学术路径看似“跨界”——从土木工程到交通工程,再到工业控制、自动驾驶,最终聚焦具身智能。但其核心始终未变:解决复杂系统中的决策与控制问题。在大模型兴起的背景下,他敏锐地指出,当前通用机器人能力的瓶颈并非模型规模,而是跨具身形态的异质性——不同机器人在硬件、感知和控制上的差异,导致数据孤岛化,使通用模型在迁移时极易失效。 为突破这一困局,X-VLA创新性地将异构性处理前置,引入可学习的“软提示”(soft prompt)机制,用以编码每台机器人的本体特征。这一设计使Transformer主干网络能聚焦于跨任务的通用规律,而非被硬件差异干扰。结果令人惊喜:仅用1200条真实示教数据,X-VLA便成功完成叠衣服这一超长程、多阶段复杂任务;在未进行任何微调的情况下,模型还能“零样本”迁移到完全陌生的会展环境,稳定执行任务。 更关键的是,X-VLA在0.9B的极小参数量下,性能远未达饱和。这不仅挑战了“大模型=高性能”的惯性思维,更凸显了“小而强”路线的潜力。与主流3B至72B的VLA模型相比,X-VLA以更精简的架构、更高效的训练数据利用,实现了更优的可扩展性。其成功源于对基础模型的重新选择——采用更贴近具身场景的Florence模型作为起点,结合软提示与轻量主干,实现了效率与能力的平衡。 团队还发现,仅用约9MB的可训练参数(LoRA微调)即可在多个基准上达到全量微调的水平,这证明X-VLA已具备极强的通用表征能力。这一发现为未来轻量化部署提供了坚实基础。 展望未来,詹仙园团队计划在提升模型推理能力、增强超长程任务自适应性方面持续探索。同时,将引入人形机器人全身控制数据,进一步拓展泛化边界。短期内,X-VLA最可能在分拣、装配、台面操作等半开放场景中实现落地,为工业自动化提供高效、可部署的智能方案。 X-VLA的诞生,标志着具身智能正从“大而全”向“小而强、可迁移”演进。它不仅刷新了性能纪录,更重新定义了通用VLA的可能路径:真正的智能,不在于参数的堆叠,而在于对世界本质规律的深刻理解与高效表达。
