HyperAI超神经

清华大学智能产业研究院（AIR）与上海人工智能实验室联合发布全新通用跨本体具身基座模型X-VLA，标志着具身智能领域取得重要突破。X-VLA是首个实现120分钟无辅助自主叠衣任务的全开源模型，公开数据、代码与模型参数，仅用0.9B参数量就在五大权威仿真基准上全面刷新性能纪录，为具身智能提供了高性能、完全开源的新基线。尽管近年来多模态大模型在图像理解、视频分析等方面进展迅猛，但其在复杂、多步骤任务中的推理与决策能力仍存在明显短板。为评估模型的真实理解能力，AIR执行院长刘洋教授团队联合清华大学计算机系、复旦大学推出3D密室逃脱环境EscapeCraft，模拟真实场景下的复杂任务推理。测试结果显示，即便GPT-4o等先进模型也频频“翻车”：看到门却绕墙走、捡起钥匙却不会使用，甚至试图“抓沙发”寻找暗格——反映出普遍存在的“看见不代表理解”问题，系统性地暴露了当前模型在视觉-动作联合推理上的不足。 X-VLA通过三大核心技术实现突破：一是高效模型设计，采用简洁Transformer架构与Soft-Prompt机制，具备优异的可扩展性；二是大规模高质量异构数据预训练，涵盖视觉、语言与动作多模态信息；三是定制化后训练流程，结合慢启动策略与学习率优化，实现高效知识迁移。实验表明，X-VLA在预训练阶段展现出良好的缩放规律，性能随参数与数据增长稳定提升。在后训练阶段，仅需少量场景专属数据即可快速适配复杂任务，实现SOTA表现。在LIBERO、SIMPLER等仿真环境及真实机器人平台上，X-VLA均表现出卓越的泛化能力，成功完成不限时长的自主叠衣任务，并实现零样本迁移至新环境，展现出强大的长程任务规划与执行能力。该项目已全面开源，代码与模型公开，为全球研究者提供了一个强大、可复现的具身智能研究平台，推动AI从“感知”迈向“理解与行动”的关键一步。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

清华智研院重磅开源X-VLA，刷新机器人基准性能新纪录

相关链接

Command Palette

清华智研院重磅开源X-VLA，刷新机器人基准性能新纪录

相关链接

Command Palette

清华智研院重磅开源X-VLA，刷新机器人基准性能新纪录

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间