Command Palette
Search for a command to run...

要約
視覚-言語-行動(Vision-Language-Action: VLA)モデルは、ロボット操作において近年、強力な枠組みとして登場している。大規模な事前学習および教師あり微調整(SFT)により著しい進展がもたらされたものの、これらのモデルは以下の二つの根本的な課題に直面している:(i)SFTのスケーリングに必要な大規模な人間操作ロボット軌道データの不足と高コスト、および(ii)分布シフトを伴うタスクへの一般化能力の限界。大規模推論モデル(Large Reasoning Models: LRMs)における最近の進展は、強化学習(Reinforcement Learning: RL)が段階的推論能力を劇的に向上させ得ることを示しており、自然な疑問が生じる:RLはVLAモデルの長期にわたる段階的行動計画能力にも同様に寄与できるだろうか?本研究では、VLAモデルに特化した効率的なRLフレームワーク「SimpleVLA-RL」を提案する。veRLを基盤として、VLA特有の軌道サンプリング、スケーラブルな並列化、複数環境のレンダリング、最適化された損失計算を導入した。OpenVLA-OFTに適用した結果、SimpleVLA-RLはLIBEROにおいて最先端(SoTA)の性能を達成し、導入した探索強化戦略により、RoboTwin 1.0および2.0でもpi_0を上回る結果を示した。SimpleVLA-RLは、大規模データへの依存を低減し、堅牢な一般化を可能にするだけでなく、現実世界のタスクにおいてもSFTを著しく上回る性能を発揮した。さらに、RL学習の過程で「pushcut」という新たな現象を発見した。この現象では、ポリシーが従来の学習プロセスで観測されていなかった新たなパターンを発見する。GitHub: https://github.com/PRIME-RL/SimpleVLA-RL