HyperAI

概要

私たちは離散アクション連続状態強化学習のための新しいアルゴリズム、Mean Actor-Critic (MAC) を提案します。MACは、ポリシー勾配アルゴリズムであり、実際に行われたアクションだけでなく、エージェントが明示的に表現するすべてのアクション値を使用してポリシーの勾配を推定します。このアプローチが従来のActor-Critic手法に比べてポリシー勾配推定の分散を減らすことを証明しています。2つの制御ドメインと6つのAtariゲームにおける経験的な結果を示し、MACが最先端のポリシーサーチアルゴリズムと競争力があることを確認しました。

概要

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

平均行動評価法（Mean Actor Critic）

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

平均行動評価法（Mean Actor Critic）

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

平均行動評価法（Mean Actor Critic）

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

概要

AIでAIを構築

HyperAI Newsletters