8ヶ月前

ディープラーニング

モデル学習

アプローチ／フレームワーク

Craig J. Bester; Steven D. James; George D. Konidaris

概要

強化学習におけるパラメータ化された行動は、離散的な行動と連続的な行動パラメータから構成されています。これにより、高レベルの行動と柔軟な制御を組み合わせる必要がある複雑な領域を解決するための枠組みが提供されます。最近のP-DQNアルゴリズムは、このような行動空間での学習を深層Qネットワークに拡張しています。しかし、このアルゴリズムはすべての行動パラメータを単一の結合入力として扱うため、その理論的基礎が無効になります。私たちはこのアプローチの問題点を分析し、それらに対処する新しい手法であるマルチパス深層Qネットワーク（MP-DQN）を提案します。実験結果から、MP-DQNはPlatform、Robot Soccer Goal、Half Field Offenseの各領域においてデータ効率と収束した方策性能においてP-DQNおよび他の従来のアルゴリズムを大幅に上回ることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ディープラーニング

モデル学習

アプローチ／フレームワーク

Craig J. Bester; Steven D. James; George D. Konidaris

概要

強化学習におけるパラメータ化された行動は、離散的な行動と連続的な行動パラメータから構成されています。これにより、高レベルの行動と柔軟な制御を組み合わせる必要がある複雑な領域を解決するための枠組みが提供されます。最近のP-DQNアルゴリズムは、このような行動空間での学習を深層Qネットワークに拡張しています。しかし、このアルゴリズムはすべての行動パラメータを単一の結合入力として扱うため、その理論的基礎が無効になります。私たちはこのアプローチの問題点を分析し、それらに対処する新しい手法であるマルチパス深層Qネットワーク（MP-DQN）を提案します。実験結果から、MP-DQNはPlatform、Robot Soccer Goal、Half Field Offenseの各領域においてデータ効率と収束した方策性能においてP-DQNおよび他の従来のアルゴリズムを大幅に上回ることが示されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

マルチパス Q-ネットワーク：パラメータ化されたアクション空間を持つ深層強化学習のための | 記事 | HyperAI超神経