Command Palette
Search for a command to run...

要約
人型ロボットの実世界への展開を阻む主な障壁は、自律的な歩行・操作(loco-manipulation)スキルの不足にある。本研究では、シミュレーション内で完全に学習し、実機ハードウェアへゼロショットで展開可能な視覚ベースのシミュレーションから現実への移行(sim-to-real)フレームワーク「VIRAL」を提案する。VIRALは、教師-生徒型のアーキテクチャを採用している。まず、全状態を観測可能な強化学習(RL)の教師モデルが、差分行動空間と参照状態初期化を用いて、長時間スケールの歩行・操作タスクを学習する。その後、大規模なシミュレーション(タイルレンダリングを用いて)を経て、視覚ベースの生徒ポリシーが教師モデルから蒸留(distillation)される。この学習には、オンラインDAggerと行動クローン(behavior cloning)の混合手法が用いられる。我々は、計算スケールが極めて重要であることを発見した。シミュレーションを数十台のGPU(最大64台)にスケーリングすることで、教師モデルおよび生徒モデルの両方の学習が安定し、信頼性が確保されるが、低計算リソース環境では学習が失敗しやすい。シミュレーションと現実のギャップを埋めるために、VIRALは、照明、素材、カメラパラメータ、画像品質、センサ遅延などにわたる大規模な視覚ドメインランダム化と、実機の多指ハンドおよびカメラのシミュレーション内再現(real-to-sim alignment)を統合している。Unitree G1人型ロボットに展開した結果、RGB入力に基づくポリシーは、54サイクルにわたる連続的な歩行・操作を実現し、実世界での微調整なしに多様な空間的・外観的変化に対して一般化可能であり、専門家による遠隔操作レベルの性能に迫る結果を得た。広範なアブレーション実験により、RGBベースの人型ロボット歩行・操作を実用的に実現するために必要な主要な設計選択肢が明確に解明された。