Command Palette

Search for a command to run...

1ヶ月前

RLinf-VLA:VLA+RL学習を統合的かつ効率的に実現するフレームワーク

RLinf-VLA:VLA+RL学習を統合的かつ効率的に実現するフレームワーク

要約

視覚と言語の基礎モデルにおける最近の進展は、マルチモーダルな理解、推論、生成の分野を著しく前進させ、視覚-言語-行動(VLA)モデルを用いた身体化された環境への能力拡張に大きな関心を呼び起こしている。しかし、現状の大多数のVLAモデルは教師あり微調整(SFT)によって訓練されており、誤差の蓄積により分布シフト下での一般化能力に課題を抱えている。強化学習(RL)は、インタラクションを通じてタスク性能を直接最適化するという観点から、有望な代替手法として注目されている。しかしながら、既存の試みはまだ断片的であり、モデルアーキテクチャやアルゴリズム設計の間で公平かつ体系的な比較を可能にする統一されたプラットフォームが欠如している。このギャップを埋めるために、本研究では、VLAモデルに対するスケーラブルな強化学習(RL)訓練を実現する統合的かつ効率的なフレームワーク「RLinf-VLA」を提案する。本システムは、レンダリング、訓練、推論をRL+VLA訓練に統合する際の課題に対応するため、高い柔軟性を備えたリソース割り当て設計を採用している。特に、GPU並列化されたシミュレータに対して、RLinf-VLAは新規のハイブリッド細粒度パイプライン割り当てモードを実装し、訓練速度を1.61倍~1.88倍に向上させた。統一インターフェースを通じて、RLinf-VLAは多様なVLAアーキテクチャ(例:OpenVLA、OpenVLA-OFT)、複数の強化学習アルゴリズム(例:PPO、GRPO)、およびさまざまなシミュレータ(例:ManiSkill、LIBERO)をシームレスにサポートする。シミュレーション環境において、統一モデルは130タスクのLIBEROで98.11%、25タスクのManiSkillで97.66%の達成率を達成した。実証的な性能に加え、本研究ではVLA訓練におけるRLの適用に向けたベストプラクティスの体系的整理を行い、この統合における新たなトレンドの兆しを明らかにした。さらに、実世界のFrankaロボットへの初期デプロイを報告し、RLで訓練された方策がSFTで訓練された方策よりも優れた一般化性能を示した。本研究は、RLinf-VLAが身体化知能に関する研究を加速し、標準化する基盤となることを目指している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RLinf-VLA:VLA+RL学習を統合的かつ効率的に実現するフレームワーク | 論文 | HyperAI超神経