清华大学智能产业研究院发布全新开源具身智能模型X-VLA,刷新机器人任务性能纪录
清华大学智能产业研究院(AIR)联合上海人工智能实验室,正式发布全新通用跨本体具身基座模型X-VLA,标志着具身智能领域迎来一项重要突破。作为首个实现120分钟无辅助自主叠衣任务的全开源模型,X-VLA不仅公开了全部数据、代码与参数,更以仅0.9B的参数量,在五大权威仿真基准上全面刷新性能纪录,为该领域树立了新的技术标杆。 尽管近年来多模态大模型在图像理解、视频分析等方面表现亮眼,但其在复杂、多步骤的现实任务中仍显“知其然不知其所以然”。为深入评估模型的真实推理能力,AIR执行院长刘洋教授团队联合清华大学计算机系、复旦大学推出3D密室逃脱环境EscapeCraft,模拟真实世界中的视觉-动作决策挑战。测试结果令人警醒:许多模型虽能“看见”门或钥匙,却无法有效规划路径;能拾取物品,却遗忘使用逻辑;甚至试图“抓沙发”以寻找隐藏机关——这些现象揭示了一个核心问题:视觉感知不等于理解与推理,当前主流模型普遍存在“看见但未理解”的系统性缺陷。即便是GPT-4o等顶尖模型,也仅有部分子任务真正完成,其余多为偶然成功。 X-VLA的突破,源于三大核心技术:一是高效模型架构设计,采用轻量级Transformer与创新的Soft-Prompt机制,显著提升参数利用效率;二是基于大规模、高质量、异构数据的预训练,覆盖视觉、语言与动作模态,构建通用表征能力;三是定制化后训练流程,结合慢启动策略与动态学习率调整,实现从通用知识到特定任务的高效、稳定迁移。 实验表明,X-VLA在预训练阶段展现出优异的可扩展性,其性能随参数与数据规模增长呈稳定线性提升,验证了架构的未来拓展潜力。在后训练阶段,仅需少量场景专属数据,即可在LIBERO、SIMPLER等权威仿真环境中达到SOTA水平,展现出极高的数据效率。更重要的是,该模型在真实机器人平台上成功完成复杂桌面操作与长期自主任务,首次实现不限时长的自主叠衣,且无需额外训练即可零样本部署至新环境,充分体现了其强大的泛化与适应能力。 这一成果不仅推动了具身智能从“感知驱动”向“认知驱动”的演进,更通过完全开源的方式,为全球研究者提供了可复现、可扩展的技术平台,加速通用人工智能在物理世界落地的步伐。
