2달 전
자기 학습을 통해 일반 강화 학습 알고리즘으로 체스와 장기의 숙달
David Silver; Thomas Hubert; Julian Schrittwieser; Ioannis Antonoglou; Matthew Lai; Arthur Guez; Marc Lanctot; Laurent Sifre; Dharshan Kumaran; Thore Graepel; Timothy Lillicrap; Karen Simonyan; Demis Hassabis

초록
체스는 인공지능의 역사에서 가장 많이 연구된 영역입니다. 가장 강력한 프로그램들은 고도화된 탐색 기법, 영역 특화적 적응, 그리고 수십 년 동안 인간 전문가들에 의해 세밀하게 개선된 수작업 평가 함수의 조합을 기반으로 하고 있습니다. 반면에, AlphaGo Zero 프로그램은 체스판 자체 대결을 통해 지식 없이 시작하는 탐구 학습(tabula rasa reinforcement learning)으로 최근 바둑 게임에서 초인간적인 성능을 달성하였습니다. 이 논문에서는 이러한 접근 방식을 일반화하여 여러 도전적인 영역에서 지식 없이 시작하여 초인간적인 성능을 달성할 수 있는 단일 AlphaZero 알고리즘을 제시합니다. 무작위 플레이에서 출발하여 게임 규칙 외에는 어떠한 영역 지식도 제공받지 않은 상태로, AlphaZero는 24시간 이내에 체스와 장기(일본 체스), 그리고 바둑에서 초인간적인 수준의 플레이를 달성하였으며, 각각 세계 챔피언 프로그램들을 명백히 물리쳤습니다.