ODYSSEY:長時間枠タスクにおけるオープンワールド四足歩行ロボットの探索と操作

言語誘導型の長期予測型モバイル操作は、エンベデッド意味理解、汎用的操縦、適応的移動の分野において長年にわたり大きな課題とされてきた。この分野の進展を阻む3つの根本的な制約が存在する。第一に、大規模言語モデルは意味的事前知識を活用して空間的推論やタスク計画を改善しているものの、既存の実装は依然としてテーブルトップ環境に限定されており、モバイルプラットフォームの制限された視覚認識能力と限られた作動範囲に対応できていない。第二に、オープンワールド環境で遭遇する多様な物体配置に対して、現在の操作戦略は十分な汎用性を発揮できていない。第三に、実用的展開において不可欠であるが、非構造化環境において高精度なエンドエフェクタ制御と高いプラットフォームの機動性を両立させるという二重の要件は、依然として十分に研究されていない。本研究では、操作アームを搭載した高速な四足歩行ロボット向けに、高レベルのタスク計画と低レベルの全身制御をシームレスに統合する統合型モバイル操作フレームワーク「ODYSSEY」を提案する。言語条件付きタスクにおける自己中心的認識の課題に対処するため、視覚言語モデルを活用した階層的計画器を導入し、長期予測の指示分解と高精度な行動実行を実現する。制御レベルでは、新たな全身ポリシーにより、困難な地形でも堅牢な協調制御を実現している。さらに、多様な屋内・屋外シナリオを評価可能な、長期予測型モバイル操作のための初のベンチマークを提示する。シミュレーションから実世界への成功した転移により、本システムの汎用性と耐障害性を実証し、非構造化環境における脚部搭載操作ロボットの実用可能性を裏付けた。本研究は、複雑かつ動的なタスクを遂行可能な汎用的ロボットアシスタントの実現可能性を大きく前進させた。プロジェクトページ:https://kaijwang.github.io/odyssey.github.io/