X-VLA: Open-Source-Modell revolutioniert Roboter-Performance
清华大学智能产业研究院(AIR)联合上海人工智能实验室发布全球首个实现120分钟无辅助自主叠衣任务的全开源通用跨本体具身基座模型X-VLA,标志着具身智能领域在通用性、可扩展性与实际应用能力上取得重大突破。该模型仅以0.9B参数量,在LIBERO、SIMPLER等五大权威仿真基准上全面刷新性能纪录,展现出远超现有模型的推理与操作能力。X-VLA不仅开源全部数据、代码与模型参数,更通过高效架构设计、大规模异构数据预训练及定制化后训练流程,构建了一个兼具高性能与低资源消耗的新技术范式。 在多模态大模型快速发展的背景下,尽管GPT-4o等模型在图像描述、视频理解等任务中表现优异,但其在复杂、多步骤的具身任务中仍暴露出“看见但不理解”的系统性缺陷。为系统评估这一问题,AIR团队推出3D密室逃脱环境EscapeCraft,模拟真实世界中的空间推理与任务规划挑战。测试显示,即使顶级模型也常出现“看到门却绕墙走”“捡钥匙不会用”“试图抓沙发找暗格”等荒谬行为,表明当前模型缺乏真正的环境理解与因果推理能力。X-VLA的出现,正是为解决这一核心瓶颈而生。 X-VLA的核心创新体现在三大方面:首先,采用轻量级Transformer架构与Soft-Prompt机制,实现高效可扩展的模型设计,其预训练缩放定律呈现稳定线性增长,验证了模型在更大规模下仍具可预测性能提升潜力;其次,基于涵盖视觉、语言、动作与物理交互的多源异构数据进行大规模预训练,使模型学习到跨模态、跨任务的通用表征;最后,通过定制化的后训练策略,包括慢启动学习率与任务适配微调流程,实现仅用中小规模场景数据即可快速迁移至新任务,显著提升训练效率与泛化能力。 实验结果表明,X-VLA在仿真环境中全面超越现有SOTA模型,在自主叠衣、复杂抓取、桌面操作等任务中表现卓越。更关键的是,其在真实机器人平台上成功完成不限时长的自主叠衣任务,且具备零样本迁移能力,可在未见过的新环境中直接部署,展现出强大的长程任务规划与鲁棒执行能力。相关成果已通过开源代码与数据集(GitHub: https://github.com/2toinf/X-VLA.git)向全球研究社区开放,推动具身智能的开放协作与技术演进。 业内专家评价,X-VLA的发布为具身智能提供了首个真正意义上的“可复现、可扩展、可部署”的通用基座,其轻量化与高性能的平衡,尤其适合边缘设备与真实机器人应用。该模型的开源策略将加速学术界与产业界在智能机器人、人机交互、自主系统等方向的创新。清华大学AIR作为国内AI+产业融合的前沿平台,持续推动基础研究向实际应用转化,X-VLA的发布再次彰显其在具身智能领域的引领地位。
