2 个月前
《星际争霸II:强化学习的新挑战》
Oriol Vinyals; Timo Ewalds; Sergey Bartunov; Petko Georgiev; Alexander Sasha Vezhnevets; Michelle Yeo; Alireza Makhzani; Heinrich Küttler; John Agapiou; Julian Schrittwieser; John Quan; Stephen Gaffney; Stig Petersen; Karen Simonyan; Tom Schaul; Hado van Hasselt; David Silver; Timothy Lillicrap; Kevin Calderone; Paul Keet; Anthony Brunasso; David Lawrence; Anders Ekermo; Jacob Repp; Rodney Tsing

摘要
本文介绍了SC2LE(StarCraft II Learning Environment,星际争霸II学习环境),这是一个基于《星际争霸II》游戏的强化学习环境。该领域为强化学习提出了一个新的重大挑战,代表了一类比以往大多数研究中考虑的问题更为复杂的难题。它是一个多智能体问题,涉及多名玩家之间的互动;由于地图部分不可见,存在不完全信息;其动作空间庞大,包括选择和控制数百个单位;状态空间也很大,必须从原始输入特征平面进行观察;并且需要在数千步内实施长期策略,因此奖励分配具有延迟性。我们描述了《星际争霸II》领域的观察、动作和奖励规范,并提供了一个用于与游戏引擎通信的开源Python接口。除了主要游戏地图外,我们还提供了一系列迷你游戏,专注于《星际争霸II》游戏的不同元素。对于主要游戏地图,我们还提供了一套来自人类专家玩家的游戏回放数据集。我们给出了基于这些数据训练神经网络以预测游戏结果和玩家行为的初步基准结果。最后,我们展示了将经典深度强化学习代理应用于《星际争霸II》领域的初步基准结果。在迷你游戏中,这些代理学会了达到与新手玩家相当的水平。然而,在主要游戏中训练时,这些代理无法取得显著进展。因此,SC2LE为探索深度强化学习算法和架构提供了新的且富有挑战性的环境。