HyperAIHyperAI

Command Palette

Search for a command to run...

0,9B-Modell bricht fünf SOTA-Rekorde in der körperlichen KI

詹仙园,清华大学博士生导师,其研究横跨土木工程、交通工程、工业控制与具身智能,2021年回归清华后聚焦于通用视觉-语言-动作(VLA)模型的构建。他带领团队开发出仅0.9B参数的X-VLA模型,在IROS 2025 AGIBOT World Challenge国际竞赛中与上海人工智能实验室联合夺冠,于五大权威仿真基准上全面刷新SOTA(State-of-the-Art)性能。该模型的核心突破在于解决跨具身异质性难题——不同机器人在硬件、感知与控制上的差异导致数据孤岛,使通用模型迁移失败。X-VLA通过在模型输入端引入可学习的“软提示”(soft prompt),动态编码每台机器人的本体特征,使主干Transformer能高效学习跨任务、跨平台的通用规律。这一设计使模型在仅1200条真实示教数据下成功完成叠衣服等超长程复杂任务,并实现零样本迁移至全新环境,表现出极强的泛化能力。尽管参数量远小于当前主流3B–72B级VLA模型,X-VLA在效率与性能间取得理想平衡,且未见性能饱和,具备显著的可扩展性。研究团队还验证了LoRA微调仅需约9MB可训练参数即可达到全量微调效果,证明模型已习得高度通用的具身能力。未来,团队将推进具身推理能力的融合,提升长时序任务的自适应性,并探索人形机器人全身控制数据的加入,以进一步增强泛化性。詹仙园认为,当前是构建通用具身智能底层框架的关键窗口期,应优先提升模型的scaling斜率,而非盲目堆算力。短期应用潜力集中于分拣、装配、台面操作等半开放场景,而家庭服务等高度开放任务仍需3–5年技术积累。X-VLA的“小而强”路径,为具身智能的轻量化、可部署化提供了新范式。 业内专家评价,X-VLA的异构性处理机制为VLA模型的跨平台迁移提供了可复用的架构范式,其“软提示+精简主干”的设计在资源受限的机器人本体部署中具有重要价值。该工作不仅推动了具身智能的通用化,也为AI与物理世界交互的可扩展性提供了实证路径。詹仙园团队的跨领域背景,使其在技术融合与问题抽象上具备独特优势,X-VLA的成果标志着中国在通用机器人认知架构研究中已进入国际第一梯队。

Verwandte Links

0,9B-Modell bricht fünf SOTA-Rekorde in der körperlichen KI | Aktuelle Beiträge | HyperAI