HyperAIHyperAI

Command Palette

Search for a command to run...

清华智研院重磅开源X-VLA,刷新机器人基准性能新纪录

清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布全新通用跨本体具身基座模型X-VLA,标志着具身智能领域取得重要突破。X-VLA是首个实现120分钟无辅助自主叠衣任务的全开源模型,公开数据、代码与模型参数,仅用0.9B参数量就在五大权威仿真基准上全面刷新性能纪录,为具身智能提供了高性能、完全开源的新基线。 尽管近年来多模态大模型在图像理解、视频分析等方面进展迅猛,但其在复杂、多步骤任务中的推理与决策能力仍存在明显短板。为评估模型的真实理解能力,AIR执行院长刘洋教授团队联合清华大学计算机系、复旦大学推出3D密室逃脱环境EscapeCraft,模拟真实场景下的复杂任务推理。测试结果显示,即便GPT-4o等先进模型也频频“翻车”:看到门却绕墙走、捡起钥匙却不会使用,甚至试图“抓沙发”寻找暗格——反映出普遍存在的“看见不代表理解”问题,系统性地暴露了当前模型在视觉-动作联合推理上的不足。 X-VLA通过三大核心技术实现突破:一是高效模型设计,采用简洁Transformer架构与Soft-Prompt机制,具备优异的可扩展性;二是大规模高质量异构数据预训练,涵盖视觉、语言与动作多模态信息;三是定制化后训练流程,结合慢启动策略与学习率优化,实现高效知识迁移。 实验表明,X-VLA在预训练阶段展现出良好的缩放规律,性能随参数与数据增长稳定提升。在后训练阶段,仅需少量场景专属数据即可快速适配复杂任务,实现SOTA表现。在LIBERO、SIMPLER等仿真环境及真实机器人平台上,X-VLA均表现出卓越的泛化能力,成功完成不限时长的自主叠衣任务,并实现零样本迁移至新环境,展现出强大的长程任务规划与执行能力。 该项目已全面开源,代码与模型公开,为全球研究者提供了一个强大、可复现的具身智能研究平台,推动AI从“感知”迈向“理解与行动”的关键一步。

相关链接