HyperAIHyperAI

Command Palette

Search for a command to run...

アドバンテージ重み付き回帰:シンプルかつスケーラブルなオフポリシー強化学習

Xue Bin Peng Aviral Kumar Grace Zhang Sergey Levine

概要

本稿では、標準的な教師あり学習手法をサブルーチンとして用いるシンプルかつスケーラブルな強化学習アルゴリズムの開発を目的とする。本研究の目標は、単純かつ収束性が保証される最尤推定損失関数のみを用いながら、オフポリシーデータを有効に活用できるアルゴリズムの設計である。提案する手法であるアドバンテージ重み付き回帰(Advantage-Weighted Regression, AWR)は、2つの標準的な教師あり学習ステップから構成される。1つ目は価値関数のターゲット値への回帰であり、2つ目はポリシーに対する重み付きターゲット行動への回帰である。本手法はシンプルかつ汎用性が高く、連続的および離散的行動の両方を扱うことができる。また、標準的な教師あり学習手法の上に数行のコードで実装可能である。AWRの理論的根拠を提示し、経験リプレイから得られるオフポリシーデータを組み込む際の性質について分析している。さらに、標準的なOpenAI Gymベンチマークタスク群における評価を通じて、多数の既存の最先端強化学習アルゴリズムと比較して競争力のある性能を達成することを示した。特に、環境との追加的な相互作用なしに静的データセットからの学習を行う場合、AWRは大多数のオフポリシーアルゴリズムよりもより効果的なポリシーを獲得できることが明らかになった。さらに、非常に複雑なシミュレートされたキャラクターを対象とした困難な連続制御タスクにおいても、本手法の有効性を実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています