2달 전
학습된 모델을 사용한 계획으로 아타리, 바둑, 체스 및 장기 장악하기
Julian Schrittwieser; Ioannis Antonoglou; Thomas Hubert; Karen Simonyan; Laurent Sifre; Simon Schmitt; Arthur Guez; Edward Lockhart; Demis Hassabis; Thore Graepel; Timothy Lillicrap; David Silver

초록
인공지능을 추구하는 과정에서 계획 기능을 가진 에이전트를 구축하는 것은 오랫동안 주요 도전 과제 중 하나였습니다. 트리 기반 계획 방법은 체스와 바둑과 같은 완벽한 시뮬레이터가 있는 어려운 영역에서 큰 성공을 거두었습니다. 그러나 현실 세계의 문제에서는 환경을 지배하는 역학이 종종 복잡하고 알려져 있지 않습니다. 본 연구에서는 트리 기반 탐색과 학습된 모델을 결합하여, 환경의 기본 역학에 대한 어떠한 지식도 없이 다양한 어려운 시각적 영역에서 초인간적인 성능을 달성한 MuZero 알고리즘을 제시합니다. MuZero는 반복적으로 적용될 때 계획에 가장 직접적으로 관련된 양, 즉 보상, 행동 선택 정책 및 가치 함수를 예측하는 모델을 학습합니다. 57개의 다른 아타리 게임(인공지능 기술을 테스트하기 위한 표준 비디오 게임 환경으로, 모델 기반 계획 접근법이 역사적으로 어려움을 겪어온 영역)에서 평가했을 때, 우리의 새로운 알고리즘은 새로운 최고 수준의 성능을 달성했습니다. 또한 바둑, 체스 및 장기에서 게임 규칙에 대한 어떠한 지식도 없이 평가했을 때, MuZero는 게임 규칙이 제공된 AlphaZero 알고리즘과 동등한 초인간적인 성능을 보여주었습니다.