HyperAIHyperAI

Command Palette

Search for a command to run...

《星际争霸多智能体挑战+》:在缺乏精确奖励函数的情况下学习多阶段任务与环境因素

Mingyu Kim Jihwan Oh Yongsik Lee Joonkee Kim Seonghwan Kim Song Chong Se-Young Yun

摘要

本文提出了一种新型基准测试——《星际争霸多智能体挑战+》(StarCraft Multi-Agent Challenges+,简称SMAC+),该基准要求智能体在缺乏精确奖励函数的情况下,学习执行多阶段任务并有效利用环境因素。此前被广泛认可为多智能体强化学习(MARL)标准基准的SMAC,主要关注所有智能体通过精细调控和显式奖励函数,协同消灭逼近的敌方单位。而本挑战则更侧重于评估MARL算法在探索能力上的表现,即高效学习隐式多阶段任务、环境因素以及微观控制策略的能力。本研究涵盖了进攻与防御两类场景:在进攻场景中,智能体需首先探测敌方目标,随后实施消灭;在防御场景中,智能体则需利用地形特征,例如通过占据掩体后方位置,以增加敌方攻击的难度。我们在SMAC+基准上对多种MARL算法进行了评估,发现近期主流方法在与以往挑战相似的设置下表现良好,但在进攻场景中出现行为异常。此外,我们观察到增强探索机制对性能提升具有积极影响,但尚不足以解决所有场景中的问题。本研究为未来MARL算法的研究指明了新的方向。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供