X-VLA開源でロボットの自律作業が飛躍進化、清华大学が新基盤モデルを発表
清华大学智能产业研究院(AIR)と上海人工智能実験室が共同開発した汎用クロスエージェント具象基盤モデル「X-VLA」が、世界初の120分間の無補助自主着衣タスクを達成する全オープンソースモデルとして正式にリリースされた。X-VLAはわずか0.9Bのパラメータで、5つの主要なシミュレーションベンチマークにおいて性能記録を全面刷新。公開されたデータ、コード、パラメータはすべて自由に利用可能で、具象知能分野に新たな技術基準を提示した。 近年、多モーダル大規模モデル(MLLM)は画像理解や動画解析など多様なタスクで進化を遂げてきたが、それらが本当に「理解」しているのかという問いが浮上している。複雑なステップを要する視覚推論タスクにおいて、モデルは人間のように論理的に判断できるのか?この問いに答えるべく、AIRの劉洋教授チームは、清华大学コンピュータ科学系、復旦大学と協力して「EscapeCraft」と呼ばれる3D密室脱出環境を開発。この環境では、大規模モデルが実際の空間内での意思決定と行動を試み、複雑な推理能力を評価する。しかし、評価結果は衝撃的だった。モデルはドアを認識しても壁を巡り続け、鍵を拾っても使えない。また、沙发を「掴んでみる」理由として「中に隠し部屋があるかもしれない」と回答するなど、単なる「見える」にとどまり、「理解」していないことが明らかになった。GPT-4oのような最先端モデルですら、一部のサブタスクを真に理解して達成しているにすぎず、多くは偶然の成果にすぎない。 X-VLAの成功の鍵は、3つの核心技術に集約される。第一に、効率的なモデル設計。簡潔なTransformerアーキテクチャとソフトプロンプト機構により、スケーラビリティが極めて高い。第二に、大規模かつ高品質な異種データによる事前学習。第三に、タスクに特化した微調整プロセスと学習率戦略の最適化。これにより、X-VLAは少量のタスク固有データで迅速に適応し、LIBEROやSIMPLERなどのベンチマークでSOTA(最良)性能を達成。実機ロボットでも、日常的な掴み動作から複雑なデスク上作業まで、高精度で対応。特に、無制限時間で着物を120分間自主的にたたむという長時間・多段階タスクを成功させ、ゼロショットで新環境に移行可能という点で、実用性の高さを示した。 X-VLAは、AIが「見ただけ」でなく「理解し、行動する」具象知能の未来を示す画期的な成果である。プロジェクトの詳細は公式サイト(https://thu-air-dream.github.io/X-VLA/)およびGitHub(https://github.com/2toinf/X-VLA.git)で公開されている。
