9일 전
학습된 모델을 활용한 확률적 환경에서의 계획
{David Silver, Thomas K Hubert, Sherjil Ozair, Julian Schrittwieser, Ioannis Antonoglou}

초록
모델 기반 강화 학습은 높은 성공을 거두어왔다. 그러나 계획 과정에서 모델을 독립적으로 학습하는 것은 복잡한 환경에서 문제를 야기한다. 현재까지 가장 효과적인 기법들은 가치 동치 모델 학습과 강력한 트리 탐색 기법을 결합하는 방식을 채택해왔다. 이러한 접근 방식의 대표적인 사례가 MuZero로, 체스와 바둑 같은 보드 게임에서부터 시각적으로 풍부한 환경에 이르기까지, 이산적이고 연속적인 행동 공간을 가진 환경에서 온라인 및 오프라인 설정 모두에서 최첨단 성능을 달성했다. 그러나 이전의 이러한 접근 방식은 결정론적 모델의 사용에 국한되어 있었다. 이는 본질적으로 확률적인 환경, 부분 관측 가능한 환경, 또는 유한한 에이전트에게 확률적으로 보일 정도로 크고 복잡한 환경에서는 성능에 한계를 가진다. 본 논문에서는 이러한 접근 방식을 확률적 모델을 학습하고 계획하는 데까지 확장한다. 구체적으로, 후상태(afterstates)를 포함하는 확률적 모델을 학습하고, 이를 바탕으로 확률적 트리 탐색을 수행하는 새로운 알고리즘인 Stochastic MuZero를 제안한다. Stochastic MuZero는 2048과 백트라크 등 다양한 단일 및 다중 에이전트 환경에서 기존 최고 수준의 성능을 달성하거나 이를 초과하였으며, 동시에 바둑에서는 기존 MuZero와 동일한 성능을 유지하였다.