Command Palette
Search for a command to run...
πextttRL:フローに基づく視覚言語行動モデルに対するオンラインRLファインチューニング
πextttRL:フローに基づく視覚言語行動モデルに対するオンラインRLファインチューニング
概要
視覚・言語・行動(Vision-Language-Action: VLA)モデルは、マルチモーダルな入力から複雑なタスクの理解と実行を可能にする。近年の研究では、教師あり微調整(Supervised Fine-Tuning: SFT)のスケーリングに伴う手作業によるデータ収集プロセスを自動化するため、強化学習(Reinforcement Learning: RL)の活用が検討されている。しかし、反復的ノイズ除去によって生じる計算不可能な行動の対数尤度のため、フローベースのVLA(例:π0、π0.5)に対して大規模なRLを適用することは依然として困難である。 本研究では、並列シミュレーション環境下でフローベースのVLAを学習するためのオープンソースフレームワーク πRL を提案する。πRL は2つの強化学習アルゴリズムを実装している。その1つである {Flow-Noise} は、ノイズ除去プロセスを時間離散化されたマルコフ決定過程(MDP)としてモデル化し、学習可能なノイズネットワークを用いて正確な対数尤度の計算を可能にする。もう1つである {Flow-SDE} は、ノイズ除去とエージェント-環境の相互作用を統合し、ODEからSDEへの変換を用いることで効率的なRL探索を実現する2層構造のMDPを定式化する。 我々は、LIBEROおよびManiSkillのベンチマーク上で πRL を評価した。LIBEROでは、πRL により、少サンプルSFTモデルである π0 と π0.5 の性能がそれぞれ57.6%から97.6%、77.1%から98.3%へと向上した。ManiSkillでは、320の並列環境で πRL を学習し、4352のピックアンドプレースタスクにおいて π0 の性能を41.6%から85.7%、π0.5 を40.0%から84.8%へと改善した。これにより、異種シミュレーション環境下でのスケーラブルなマルチタスクRLの実現が示された。 総合的に、πRL はSFTモデルに比べて顕著な性能向上とより優れた汎化能力を達成し、フローベースのVLAにおけるオンライン強化学習の有効性を実証した。