17 天前
《星际争霸多智能体挑战+》:在缺乏精确奖励函数的情况下学习多阶段任务与环境因素
Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong, Se-Young Yun

摘要
本文提出了一种新型基准测试——《星际争霸多智能体挑战+》(StarCraft Multi-Agent Challenges+,简称SMAC+),该基准要求智能体在缺乏精确奖励函数的情况下,学习执行多阶段任务并有效利用环境因素。此前被广泛认可为多智能体强化学习(MARL)标准基准的SMAC,主要关注所有智能体通过精细调控和显式奖励函数,协同消灭逼近的敌方单位。而本挑战则更侧重于评估MARL算法在探索能力上的表现,即高效学习隐式多阶段任务、环境因素以及微观控制策略的能力。本研究涵盖了进攻与防御两类场景:在进攻场景中,智能体需首先探测敌方目标,随后实施消灭;在防御场景中,智能体则需利用地形特征,例如通过占据掩体后方位置,以增加敌方攻击的难度。我们在SMAC+基准上对多种MARL算法进行了评估,发现近期主流方法在与以往挑战相似的设置下表现良好,但在进攻场景中出现行为异常。此外,我们观察到增强探索机制对性能提升具有积极影响,但尚不足以解决所有场景中的问题。本研究为未来MARL算法的研究指明了新的方向。