13일 전
복잡한 행동 공간에서의 학습 및 계획
Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver

초록
많은 중요한 실세계 문제들은 고차원적이고 연속적인 행동 공간을 가지며, 이로 인해 가능한 모든 행동을 완전히 나열하는 것은 불가능해진다. 대신 정책 평가 및 개선을 위해 행동의 작은 부분집합만을 샘플링할 수 있다. 본 논문에서는 이러한 샘플된 행동 부분집합 위에서 정교한 방법으로 정책 평가와 개선을 추론할 수 있는 일반적인 프레임워크를 제안한다. 이 샘플 기반 정책 반복 프레임워크는 정책 반복 기반의 어떤 강화학습 알고리즘에도 원리적으로 적용 가능하다. 구체적으로, 샘플된 행동을 기반으로 계획을 수행함으로써 임의로 복잡한 행동 공간에서도 학습이 가능한 MuZero 알고리즘의 확장인 Sampled MuZero를 제안한다. 본 방법의 효과를 고전적인 보드 게임인 가와 DeepMind Control Suite 및 실세계 강화학습 벤치마크인 Real-World RL Suite와 같은 두 가지 연속 제어 벤치마크 도메인에서 실험을 통해 검증하였다.