2달 전

평균 액터-크리틱 (Mean Actor Critic)

Cameron Allen; Kavosh Asadi; Melrose Roderick; Abdel-rahman Mohamed; George Konidaris; Michael Littman
평균 액터-크리틱 (Mean Actor Critic)
초록

우리는 이산 행동 연속 상태 강화 학습을 위한 새로운 알고리즘, 평균 액터-크리틱 (Mean Actor-Critic, MAC)을 제안합니다. MAC은 정책 그래디언트 알고리즘으로, 실제로 실행된 행동만을 사용하는 것이 아니라 에이전트가 모든 행동 가치의 명시적 표현을 사용하여 정책의 그래디언트를 추정합니다. 우리는 이 접근법이 전통적인 액터-크리틱 방법에 비해 정책 그래디언트 추정치의 분산을 줄인다는 것을 증명하였습니다. 두 개의 제어 영역과 여섯 개의 아타리 게임에서 MAC이 최신 정책 탐색 알고리즘들과 경쟁력 있다는 경험적 결과를 보여드립니다.

평균 액터-크리틱 (Mean Actor Critic) | 최신 연구 논문 | HyperAI초신경