HyperAIHyperAI

Command Palette

Search for a command to run...

0.9Bモデルで5大SOTA更新、清华チームが「小而強」な汎用VLA「X-VLA」を発表

清华大学の詹仙園(せん せんえん)教授が率いる研究チームが、わずか0.9Bのパラメータで5つの主要な具身智能ベンチマークでSOTA(最優秀性能)を達成する「X-VLA」を発表した。このモデルは、異なるロボット間のハードウェア・センシング・制御の異質性という課題に着目し、可学習な「ソフトプロンプト」を導入することで、各ロボットの本体特徴をモデル入力段階で効果的に統合。これにより、わずか1200件の示教データで衣服の折りたたみといった超長距離複雑タスクを習得し、ゼロショットで新たな環境に即座に適応する能力を実証した。 詹教授は、土木工学から交通工学、産業制御、AI研究を経て、2021年に清华に戻り学術研究に専念。その背景には「データ駆動型の意思決定最適化技術で、物理世界の問題を解決する」という一貫したテーマがある。彼は、具身智能の発展において、モデルの規模ではなく「異質なロボット間の統合性」が真の障壁であると指摘。X-VLAは、Florenceという視覚・物理理解に特化した小規模基盤モデルを採用し、効率的な構造設計と柔軟な適応機構によって、パラメータ量の小ささと性能の高さを両立。 実験では、ゼロショットで展示会場のような複雑な実環境に即座に適応し、安定した動作を実現。また、LoRAによる微調整でわずか9MBの可学習パラメータで、全微調整と同等の性能を達成。これは、モデルが本質的な汎化能力を学習している証拠である。 今後の展開として、長時間スケールのタスク実行における自己調整能力や、具身的推論の統合を進める。また、人形ロボットの全身制御データの導入も視野に、データ領域の拡大とモデルのスケーリングを両立する戦略を取る。短期的には、分拣・アセンブリ・台面操作といった半開放環境での応用が現実的とみられ、家庭用の高度な家事ロボットは3~5年後の実現が見通される。 X-VLAは、AIの「小而強(小規模ながら高効率)」なアプローチの成功例として、具身智能の未来に新たな道を示している。

関連リンク

0.9Bモデルで5大SOTA更新、清华チームが「小而強」な汎用VLA「X-VLA」を発表 | 人気の記事 | HyperAI超神経