HyperAI

منذ 6 أشهر

在具身智能迈向大模型时代的关键节点，清华团队推出了一款仅0.9B参数却在五大权威仿真基准上全面刷新SOTA的通用视觉-语言-动作模型（VLA）——X-VLA。这一成果由詹仙园带领团队完成，其背后是一条贯穿他多年研究的清晰主线：如何用数据驱动的决策优化技术，让智能体在真实物理世界中更高效、更通用地解决问题。詹仙园的学术路径看似“跨界”——从土木工程到交通工程，再到工业控制、自动驾驶，最终聚焦具身智能。但其核心始终未变：解决复杂系统中的决策与控制问题。在大模型兴起的背景下，他敏锐地指出，当前通用机器人能力的瓶颈并非模型规模，而是跨具身形态的异质性——不同机器人在硬件、感知和控制上的差异，导致数据孤岛化，使通用模型在迁移时极易失效。为突破这一困局，X-VLA创新性地将异构性处理前置，引入可学习的“软提示”（soft prompt）机制，用以编码每台机器人的本体特征。这一设计使Transformer主干网络能聚焦于跨任务的通用规律，而非被硬件差异干扰。结果令人惊喜：仅用1200条真实示教数据，X-VLA便成功完成叠衣服这一超长程、多阶段复杂任务；在未进行任何微调的情况下，模型还能“零样本”迁移到完全陌生的会展环境，稳定执行任务。更关键的是，X-VLA在0.9B的极小参数量下，性能远未达饱和。这不仅挑战了“大模型=高性能”的惯性思维，更凸显了“小而强”路线的潜力。与主流3B至72B的VLA模型相比，X-VLA以更精简的架构、更高效的训练数据利用，实现了更优的可扩展性。其成功源于对基础模型的重新选择——采用更贴近具身场景的Florence模型作为起点，结合软提示与轻量主干，实现了效率与能力的平衡。团队还发现，仅用约9MB的可训练参数（LoRA微调）即可在多个基准上达到全量微调的水平，这证明X-VLA已具备极强的通用表征能力。这一发现为未来轻量化部署提供了坚实基础。展望未来，詹仙园团队计划在提升模型推理能力、增强超长程任务自适应性方面持续探索。同时，将引入人形机器人全身控制数据，进一步拓展泛化边界。短期内，X-VLA最可能在分拣、装配、台面操作等半开放场景中实现落地，为工业自动化提供高效、可部署的智能方案。 X-VLA的诞生，标志着具身智能正从“大而全”向“小而强、可迁移”演进。它不仅刷新了性能纪录，更重新定义了通用VLA的可能路径：真正的智能，不在于参数的堆叠，而在于对世界本质规律的深刻理解与高效表达。

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

0.9B参数刷新五项SOTA，清华团队开发小而强通用VLA模型｜对话詹仙园

MIT Technology Review

منذ 6 أشهر

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

0.9B参数刷新五项SOTA，清华团队开发小而强通用VLA模型｜对话詹仙园

MIT Technology Review

منذ 6 أشهر

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

0.9B参数刷新五项SOTA，清华团队开发小而强通用VLA模型｜对话詹仙园

MIT Technology Review

Command Palette

清华团队发布0.9B参数小而强通用VLA模型X-VLA，刷新五项SOTA，实现零样本跨机器人迁移

الروابط ذات الصلة

Command Palette

清华团队发布0.9B参数小而强通用VLA模型X-VLA，刷新五项SOTA，实现零样本跨机器人迁移

الروابط ذات الصلة

Command Palette

清华团队发布0.9B参数小而强通用VLA模型X-VLA，刷新五项SOTA，实现零样本跨机器人迁移

الروابط ذات الصلة