日付

1ヶ月前

組織

論文URL

タグ

展開しながら学習する（LWD）は、2026年に上海イノベーション研究所、AIZロボティクス、コロンビア大学の研究者によって提案されました。関連する研究成果は論文として発表されています。展開しながら学習する：汎用ロボットポリシーのためのフリート規模の強化学習。

LWDは、大規模なフリート展開とオフラインからオンラインへの強化学習を組み合わせたスケーラブルなフレームワークです。主に、オフラインで事前学習されたデータのみに依存しているため、複雑な実世界環境でタスクを実行する一般的な視覚・言語・行動（VLA）モデルにおける「分布シフトとロングテール障害」の課題に対処します。このフレームワークは、分散型暗黙的価値学習（DIVL）と随伴マッチングに基づくQ学習（QAM）を導入し、実世界展開における自律ロボットの相互作用と人間の介入からデータを継続的に集約することで、実際のアプリケーションシナリオから逸脱することなく、ポリシーモデルの安定した反復を可能にします。研究結果によると、LWDはスパースな報酬によって引き起こされる学習のボトルネックを効果的に克服し、さまざまな実世界の物理環境における汎用モデルの適応性と汎化能力を大幅に向上させます。スーパーマーケットでの商品補充、お茶の淹れ方、カクテル作りなど、現実世界で発生する8つの複雑なシナリオにおいて、単一の汎用ポリシーモデルは、平均951 TP3Tのタスク成功率を達成し、長期タスクの実行時間を大幅に短縮しました。