6 个月前

多任务学习

Mingyu Kim Jihwan Oh Yongsik Lee Joonkee Kim Seonghwan Kim Song Chong Se-Young Yun

摘要

本文提出了一种新型基准测试——《星际争霸多智能体挑战+》（StarCraft Multi-Agent Challenges+，简称SMAC+），该基准要求智能体在缺乏精确奖励函数的情况下，学习执行多阶段任务并有效利用环境因素。此前被广泛认可为多智能体强化学习（MARL）标准基准的SMAC，主要关注所有智能体通过精细调控和显式奖励函数，协同消灭逼近的敌方单位。而本挑战则更侧重于评估MARL算法在探索能力上的表现，即高效学习隐式多阶段任务、环境因素以及微观控制策略的能力。本研究涵盖了进攻与防御两类场景：在进攻场景中，智能体需首先探测敌方目标，随后实施消灭；在防御场景中，智能体则需利用地形特征，例如通过占据掩体后方位置，以增加敌方攻击的难度。我们在SMAC+基准上对多种MARL算法进行了评估，发现近期主流方法在与以往挑战相似的设置下表现良好，但在进攻场景中出现行为异常。此外，我们观察到增强探索机制对性能提升具有积极影响，但尚不足以解决所有场景中的问题。本研究为未来MARL算法的研究指明了新的方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Mingyu Kim Jihwan Oh Yongsik Lee Joonkee Kim Seonghwan Kim Song Chong Se-Young Yun

摘要

本文提出了一种新型基准测试——《星际争霸多智能体挑战+》（StarCraft Multi-Agent Challenges+，简称SMAC+），该基准要求智能体在缺乏精确奖励函数的情况下，学习执行多阶段任务并有效利用环境因素。此前被广泛认可为多智能体强化学习（MARL）标准基准的SMAC，主要关注所有智能体通过精细调控和显式奖励函数，协同消灭逼近的敌方单位。而本挑战则更侧重于评估MARL算法在探索能力上的表现，即高效学习隐式多阶段任务、环境因素以及微观控制策略的能力。本研究涵盖了进攻与防御两类场景：在进攻场景中，智能体需首先探测敌方目标，随后实施消灭；在防御场景中，智能体则需利用地形特征，例如通过占据掩体后方位置，以增加敌方攻击的难度。我们在SMAC+基准上对多种MARL算法进行了评估，发现近期主流方法在与以往挑战相似的设置下表现良好，但在进攻场景中出现行为异常。此外，我们观察到增强探索机制对性能提升具有积极影响，但尚不足以解决所有场景中的问题。本研究为未来MARL算法的研究指明了新的方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供