HyperAI

清华团队开发的0.9B参数通用视觉-语言-动作模型X-VLA在具身智能领域实现五项SOTA突破，引发广泛关注。该模型由清华交叉信息研究院研究员詹仙园带领团队研发，其核心创新在于解决跨具身异质性难题——即不同机器人在硬件、感知和控制上的巨大差异导致数据孤岛，严重制约通用模型的迁移能力。詹仙园的学术路径看似“跨界”：从土木工程到交通工程，再到工业控制、自动驾驶，最终聚焦具身智能。但其研究主线始终如一：如何用数据驱动的决策优化技术，让智能体在真实物理世界中高效解决问题。正是这一长期积累，使他敏锐意识到，当前通用机器人能力的瓶颈不在于模型大小，而在于对异构机器人的适配能力。 X-VLA的突破性设计在于将异质性处理前置。团队引入可学习的“软提示”（soft prompt）机制，为每种机器人动态注入独特的本体特征，使主干Transformer能专注于学习跨任务、跨形态的通用规律。这一架构仅用0.9B参数，在五大仿真基准上全面刷新纪录，仅凭约1200条真实示教数据便成功完成叠衣服这一超长程复杂任务，并实现零样本迁移至全新环境。令人惊喜的是，模型在杭州举办的IROS 2025 AGIBOT World Challenge国际竞赛中，与上海人工智能实验室联合夺冠。更意外的是，模型在未经过任何调整的情况下，直接部署于复杂会展场景，成功应对光照、背景、动态干扰等挑战，表现稳定，展现出远超预期的泛化能力。团队进一步验证发现，仅用约9MB可训练参数（LoRA微调）即可达到全量微调效果，证明模型已具备高度通用的底层能力。詹仙园强调，未来研究将聚焦两大方向：一是引入具身推理能力，提升长程任务的自适应与容错性；二是拓展数据域，加入人形机器人全身控制数据，进一步提升泛化性。尽管模型尚未达到性能上限，但其“小而强”的设计思路已展现出巨大潜力。在半开放场景如分拣、装配、台面操作中，X-VLA已具备接近商用的可行性。而要真正进入家庭、完成复杂家务，仍需3至5年技术积累。X-VLA的出现，标志着具身智能正从“大模型堆砌”转向“高效通用架构”的关键跃迁。

相关链接

相关链接

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

Command Palette

清华团队发布0.9B参数小模型刷新五项SOTA，打造高效通用视觉语言模型

相关链接

Command Palette

清华团队发布0.9B参数小模型刷新五项SOTA，打造高效通用视觉语言模型

相关链接

Command Palette

清华团队发布0.9B参数小模型刷新五项SOTA，打造高效通用视觉语言模型

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力