清华团队发布0.9B参数小模型刷新五项SOTA,打造高效通用视觉语言模型
清华团队开发的0.9B参数通用视觉-语言-动作模型X-VLA在具身智能领域实现五项SOTA突破,引发广泛关注。该模型由清华交叉信息研究院研究员詹仙园带领团队研发,其核心创新在于解决跨具身异质性难题——即不同机器人在硬件、感知和控制上的巨大差异导致数据孤岛,严重制约通用模型的迁移能力。 詹仙园的学术路径看似“跨界”:从土木工程到交通工程,再到工业控制、自动驾驶,最终聚焦具身智能。但其研究主线始终如一:如何用数据驱动的决策优化技术,让智能体在真实物理世界中高效解决问题。正是这一长期积累,使他敏锐意识到,当前通用机器人能力的瓶颈不在于模型大小,而在于对异构机器人的适配能力。 X-VLA的突破性设计在于将异质性处理前置。团队引入可学习的“软提示”(soft prompt)机制,为每种机器人动态注入独特的本体特征,使主干Transformer能专注于学习跨任务、跨形态的通用规律。这一架构仅用0.9B参数,在五大仿真基准上全面刷新纪录,仅凭约1200条真实示教数据便成功完成叠衣服这一超长程复杂任务,并实现零样本迁移至全新环境。 令人惊喜的是,模型在杭州举办的IROS 2025 AGIBOT World Challenge国际竞赛中,与上海人工智能实验室联合夺冠。更意外的是,模型在未经过任何调整的情况下,直接部署于复杂会展场景,成功应对光照、背景、动态干扰等挑战,表现稳定,展现出远超预期的泛化能力。 团队进一步验证发现,仅用约9MB可训练参数(LoRA微调)即可达到全量微调效果,证明模型已具备高度通用的底层能力。詹仙园强调,未来研究将聚焦两大方向:一是引入具身推理能力,提升长程任务的自适应与容错性;二是拓展数据域,加入人形机器人全身控制数据,进一步提升泛化性。 尽管模型尚未达到性能上限,但其“小而强”的设计思路已展现出巨大潜力。在半开放场景如分拣、装配、台面操作中,X-VLA已具备接近商用的可行性。而要真正进入家庭、完成复杂家务,仍需3至5年技术积累。X-VLA的出现,标志着具身智能正从“大模型堆砌”转向“高效通用架构”的关键跃迁。
