Command Palette

Search for a command to run...

1ヶ月前

VLA-RFT:世界シミュレーターにおける検証済み報酬を用いた視覚言語行動強化学習のファインチューニング

VLA-RFT:世界シミュレーターにおける検証済み報酬を用いた視覚言語行動強化学習のファインチューニング

要約

視覚・言語・行動(Vision-Language-Action: VLA)モデルは、身体的な意思決定を可能にするが、模倣学習に大きく依存しており、誤差が累積しやすく、分布シフト下での頑健性が低いという課題がある。強化学習(Reinforcement Learning: RL)はこうした問題を緩和できるが、通常は高コストな現実世界での相互作用を必要としたり、シミュレータから実世界へのギャップ(sim-to-real gap)に悩まされる。本研究では、データ駆動型の世界モデルを制御可能なシミュレータとして活用する強化学習微調整フレームワーク「VLA-RFT」を提案する。実際の相互作用データから学習されたこのシミュレータは、行動を条件として将来の視覚的観測を予測でき、目標達成を参照にした高密度な、軌道レベルの報酬を用いたポリシーのロールアウトが可能となる。この設計により、効率的かつ行動に整合した学習信号が得られ、サンプルの必要量を大幅に削減できる。400ステップ未満の微調整で、強力な教師ありベースラインを上回り、シミュレータベースのRLよりも高い効率性を達成した。さらに、摂動が加えられた条件下でも高い頑健性を示し、安定したタスク実行を維持した。本研究の結果から、世界モデルを活用したRFT(強化学習微調整)が、VLAモデルの汎化性能および頑健性を向上させる実用的な後学習パラダイムであることが示された。詳細については、https://vla-rft.github.io/ をご参照ください。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VLA-RFT:世界シミュレーターにおける検証済み報酬を用いた視覚言語行動強化学習のファインチューニング | 論文 | HyperAI超神経