3ヶ月前

ロボティクス

エージェント

アプローチ／フレームワーク

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

概要

視覚・言語・行動（Vision-Language-Action, VLA）モデルは、汎用的なロボット操作に高い可能性を示しているが、専門家の示範に依存するため、失敗からの学習や自己修正が困難である。強化学習（Reinforcement Learning, RL）は、物理環境との自己改善型の相互作用によってこの課題を克服するが、実ロボット上では高いサンプル効率の課題に直面する。本研究では、実環境との直接的な相互作用を必要とせずに、オンポリシーVLA RLを実現する原理的な枠組み「世界モデルに基づく方策最適化（World-Model-based Policy Optimization, WMPO）」を提案する。広く用いられる潜在空間世界モデルとは異なり、WMPOは、ウェブスケールの画像で事前学習されたVLA特徴と整合性を持つピクセルベースの予測に注目する。特に、WMPOは方策がオンポリシーのGRPO（Generalized Reinforcement Policy Optimization）を実行可能とし、従来よく用いられるオフポリシー手法よりも強力な性能を発揮する。シミュレーションおよび実ロボット環境における広範な実験により、WMPOが（i）著しくサンプル効率を向上させ、（ii）優れた総合的性能を達成し、（iii）自己修正を含むEmergent（出現的）な行動を示し、（iv）堅牢な汎化能力および生涯学習（lifelong learning）の可能性を示すことが確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

ロボティクス

エージェント

アプローチ／フレームワーク

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

概要

視覚・言語・行動（Vision-Language-Action, VLA）モデルは、汎用的なロボット操作に高い可能性を示しているが、専門家の示範に依存するため、失敗からの学習や自己修正が困難である。強化学習（Reinforcement Learning, RL）は、物理環境との自己改善型の相互作用によってこの課題を克服するが、実ロボット上では高いサンプル効率の課題に直面する。本研究では、実環境との直接的な相互作用を必要とせずに、オンポリシーVLA RLを実現する原理的な枠組み「世界モデルに基づく方策最適化（World-Model-based Policy Optimization, WMPO）」を提案する。広く用いられる潜在空間世界モデルとは異なり、WMPOは、ウェブスケールの画像で事前学習されたVLA特徴と整合性を持つピクセルベースの予測に注目する。特に、WMPOは方策がオンポリシーのGRPO（Generalized Reinforcement Policy Optimization）を実行可能とし、従来よく用いられるオフポリシー手法よりも強力な性能を発揮する。シミュレーションおよび実ロボット環境における広範な実験により、WMPOが（i）著しくサンプル効率を向上させ、（ii）優れた総合的性能を達成し、（iii）自己修正を含むEmergent（出現的）な行動を示し、（iv）堅牢な汎化能力および生涯学習（lifelong learning）の可能性を示すことが確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています