6 个月前

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

摘要

许多现实世界任务需要多个智能体协同完成。近年来，多智能体强化学习（Multi-agent Reinforcement Learning, RL）方法被提出以应对这类任务，但现有方法在高效学习策略方面仍存在明显不足。为此，我们研究了单智能体强化学习中普遍存在的一种缺陷——价值函数高估偏差（value function overestimation bias）在多智能体环境中的表现。基于研究发现，我们提出一种新方法，通过采用双中心化评论家（double centralized critics）来有效降低该偏差。我们在六个混合合作-竞争任务上对该方法进行了评估，结果表明其显著优于现有主流方法。最后，我们进一步探讨了多智能体方法在高维机器人任务中的应用，并证明所提方法能够有效用于学习该领域中的去中心化策略。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

摘要

许多现实世界任务需要多个智能体协同完成。近年来，多智能体强化学习（Multi-agent Reinforcement Learning, RL）方法被提出以应对这类任务，但现有方法在高效学习策略方面仍存在明显不足。为此，我们研究了单智能体强化学习中普遍存在的一种缺陷——价值函数高估偏差（value function overestimation bias）在多智能体环境中的表现。基于研究发现，我们提出一种新方法，通过采用双中心化评论家（double centralized critics）来有效降低该偏差。我们在六个混合合作-竞争任务上对该方法进行了评估，结果表明其显著优于现有主流方法。最后，我们进一步探讨了多智能体方法在高维机器人任务中的应用，并证明所提方法能够有效用于学习该领域中的去中心化策略。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供