2달 전

스타크래프트 II: 강화학습의 새로운 도전

Oriol Vinyals; Timo Ewalds; Sergey Bartunov; Petko Georgiev; Alexander Sasha Vezhnevets; Michelle Yeo; Alireza Makhzani; Heinrich Küttler; John Agapiou; Julian Schrittwieser; John Quan; Stephen Gaffney; Stig Petersen; Karen Simonyan; Tom Schaul; Hado van Hasselt; David Silver; Timothy Lillicrap; Kevin Calderone; Paul Keet; Anthony Brunasso; David Lawrence; Anders Ekermo; Jacob Repp; Rodney Tsing
스타크래프트 II: 강화학습의 새로운 도전
초록

이 논문은 StarCraft II Learning Environment (SC2LE)를 소개합니다. SC2LE는 StarCraft II 게임을 기반으로 하는 강화학습 환경입니다. 이 영역은 대부분의 이전 연구에서 고려된 문제보다 더 어려운 문제 클래스를 나타내며, 강화학습에 대한 새로운 큰 도전 과제를 제시합니다. 여러 플레이어가 상호작용하는 다중 에이전트 문제이며, 부분적으로 관찰되는 맵으로 인해 정보가 불완전합니다. 또한 수백 개의 유닛 선택과 제어를 포함하는 큰 행동 공간과, 원시 입력 특성 평면에서만 관찰할 수 있는 큰 상태 공간이 있으며, 수천 단계에 걸친 장기 전략이 필요한 지연된 크레딧 할당 문제가 있습니다.우리는 StarCraft II 영역의 관찰, 행동 및 보상 사양을 설명하고, 게임 엔진과 통신하기 위한 오픈 소스 Python 기반 인터페이스를 제공합니다. 주요 게임 맵 외에도, StarCraft II 게임플레이의 다양한 요소에 초점을 맞춘 미니 게임 모음도 제공합니다. 주요 게임 맵에 대해서는 인간 전문 플레이어들의 게임 리플레이 데이터셋도 함께 제공합니다. 우리는 이 데이터에서 신경망을 훈련하여 게임 결과와 플레이어 행동을 예측하는 초기 베이스라인 결과를 제시합니다.마지막으로, 캐노니컬 딥 강화학습 에이전트들이 StarCraft II 영역에 적용될 때의 초기 베이스라인 결과를 발표합니다. 미니 게임에서는 이러한 에이전트들이 초보자 플레이어와 비교할 만한 수준의 플레이를 학습하지만, 주요 게임에서 훈련할 때는 유의미한 진전을 이루지 못했습니다. 따라서 SC2LE는 딥 강화학습 알고리즘과 아키텍처를 탐구하기 위한 새로운이고 도전적인 환경을 제공합니다.