HyperAIHyperAI

Command Palette

Search for a command to run...

平均行動評価法(Mean Actor Critic)

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

私たちは離散アクション連続状態強化学習のための新しいアルゴリズム、Mean Actor-Critic (MAC) を提案します。MACは、ポリシー勾配アルゴリズムであり、実際に行われたアクションだけでなく、エージェントが明示的に表現するすべてのアクション値を使用してポリシーの勾配を推定します。このアプローチが従来のActor-Critic手法に比べてポリシー勾配推定の分散を減らすことを証明しています。2つの制御ドメインと6つのAtariゲームにおける経験的な結果を示し、MACが最先端のポリシーサーチアルゴリズムと競争力があることを確認しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています