13일 전

복잡한 행동 공간에서의 학습 및 계획

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver
복잡한 행동 공간에서의 학습 및 계획
초록

많은 중요한 실세계 문제들은 고차원적이고 연속적인 행동 공간을 가지며, 이로 인해 가능한 모든 행동을 완전히 나열하는 것은 불가능해진다. 대신 정책 평가 및 개선을 위해 행동의 작은 부분집합만을 샘플링할 수 있다. 본 논문에서는 이러한 샘플된 행동 부분집합 위에서 정교한 방법으로 정책 평가와 개선을 추론할 수 있는 일반적인 프레임워크를 제안한다. 이 샘플 기반 정책 반복 프레임워크는 정책 반복 기반의 어떤 강화학습 알고리즘에도 원리적으로 적용 가능하다. 구체적으로, 샘플된 행동을 기반으로 계획을 수행함으로써 임의로 복잡한 행동 공간에서도 학습이 가능한 MuZero 알고리즘의 확장인 Sampled MuZero를 제안한다. 본 방법의 효과를 고전적인 보드 게임인 가와 DeepMind Control Suite 및 실세계 강화학습 벤치마크인 Real-World RL Suite와 같은 두 가지 연속 제어 벤치마크 도메인에서 실험을 통해 검증하였다.

복잡한 행동 공간에서의 학습 및 계획 | 최신 연구 논문 | HyperAI초신경