HyperAI

清华大学智能产业研究院（AIR）联合上海人工智能实验室，正式发布全新通用跨本体具身基座模型X-VLA，标志着具身智能领域迎来一项重要突破。作为首个实现120分钟无辅助自主叠衣任务的全开源模型，X-VLA不仅公开了全部数据、代码与参数，更以仅0.9B的参数量，在五大权威仿真基准上全面刷新性能纪录，为该领域树立了新的技术标杆。尽管近年来多模态大模型在图像理解、视频分析等方面表现亮眼，但其在复杂、多步骤的现实任务中仍显“知其然不知其所以然”。为深入评估模型的真实推理能力，AIR执行院长刘洋教授团队联合清华大学计算机系、复旦大学推出3D密室逃脱环境EscapeCraft，模拟真实世界中的视觉-动作决策挑战。测试结果令人警醒：许多模型虽能“看见”门或钥匙，却无法有效规划路径；能拾取物品，却遗忘使用逻辑；甚至试图“抓沙发”以寻找隐藏机关——这些现象揭示了一个核心问题：视觉感知不等于理解与推理，当前主流模型普遍存在“看见但未理解”的系统性缺陷。即便是GPT-4o等顶尖模型，也仅有部分子任务真正完成，其余多为偶然成功。 X-VLA的突破，源于三大核心技术：一是高效模型架构设计，采用轻量级Transformer与创新的Soft-Prompt机制，显著提升参数利用效率；二是基于大规模、高质量、异构数据的预训练，覆盖视觉、语言与动作模态，构建通用表征能力；三是定制化后训练流程，结合慢启动策略与动态学习率调整，实现从通用知识到特定任务的高效、稳定迁移。实验表明，X-VLA在预训练阶段展现出优异的可扩展性，其性能随参数与数据规模增长呈稳定线性提升，验证了架构的未来拓展潜力。在后训练阶段，仅需少量场景专属数据，即可在LIBERO、SIMPLER等权威仿真环境中达到SOTA水平，展现出极高的数据效率。更重要的是，该模型在真实机器人平台上成功完成复杂桌面操作与长期自主任务，首次实现不限时长的自主叠衣，且无需额外训练即可零样本部署至新环境，充分体现了其强大的泛化与适应能力。这一成果不仅推动了具身智能从“感知驱动”向“认知驱动”的演进，更通过完全开源的方式，为全球研究者提供了可复现、可扩展的技术平台，加速通用人工智能在物理世界落地的步伐。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

Command Palette

清华大学智能产业研究院发布全新开源具身智能模型X-VLA，刷新机器人任务性能纪录

الروابط ذات الصلة

Command Palette

清华大学智能产业研究院发布全新开源具身智能模型X-VLA，刷新机器人任务性能纪录

الروابط ذات الصلة

Command Palette

清华大学智能产业研究院发布全新开源具身智能模型X-VLA，刷新机器人任务性能纪录

الروابط ذات الصلة

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".

لقد نجحت طريقة جديدة للتنبؤ بعمر البطارية، اقترحتها جامعة ميشيغان وآخرون، في تقصير دورة التحقق بمقدار 40 مرة، مما وفر وقت تقييم 98% من خلال "التعلم الاستكشافي".