Command Palette
Search for a command to run...

要約
汎用ロボット向けの視覚-言語-行動(VLA)モデルの学習には、通常、大規模な現実世界のロボットデータが必要となるが、このようなデータの収集は高コストかつ時間のかかる作業である。物理的データ収集の非効率性は、現在のVLAシステムのスケーラビリティおよび汎化能力を著しく制限している。この課題に対処するため、本研究では、世界モデル(world model)によって生成されたデータ(例:動画生成、real2real変換、人間の行動転送、視点変換、sim2real変換データなど)を活用した新規VLA基盤モデル「GigaBrain-0」を提案する。世界モデルを用いて大規模かつ多様なデータを生成することで、GigaBrain-0は現実のロボットデータへの依存を大幅に低減しつつ、タスク間の汎化性能を向上させた。さらに、RGBD入力のモデリングと体現型Chain-of-Thought(CoT)の監督を導入することで、モデルのポリシーのロバスト性を強化し、タスク実行中に空間幾何、物体の状態、長時間スパンの依存関係を推論可能にした。その結果、繊細な操作、長時間スパンのタスク、移動型操作タスクにおいて、現実世界での性能が顕著に向上した。広範な実験により、GigaBrain-0が外観(例:テクスチャ、色)の変化、物体の配置、カメラの視点の変化などにわたる多様な状況において優れた汎化性能を達成することが示された。また、NVIDIA Jetson AGX Orinなどのデバイス上で効率的に動作するよう最適化された軽量版「GigaBrain-0-Small」も提案する。