17 天前

分布式多智能体强化学习中的风险源解耦

{Jinwoo Shin, Yung Yi, Junsu Kim, Kyunghwan Son}
分布式多智能体强化学习中的风险源解耦
摘要

在协作式多智能体强化学习中,状态转移、奖励信号以及智能体动作均可能引发观测到的长期回报中的随机性(或不确定性)。这种不确定性主要来源于两个风险源:(a) 智能体层面的风险(即对某一智能体而言,其协作伙伴的行为是否可靠);(b) 环境层面的风险(即状态转移的随机性)。尽管这两个风险源均是学习鲁棒智能体策略的关键因素,但现有方法通常未对二者进行区分,或仅考虑单一风险源,这可能导致学习到次优的均衡策略。本文提出一种新型框架——解耦风险敏感的多智能体强化学习(Disentangled RIsk-sensitive Multi-Agent reinforcement learning, DRIMA),能够有效解耦上述两类风险源。其核心思想是在集中式训练与分布式执行过程中,通过分层分位数结构(hierarchical quantile structure)与分位数回归(quantile regression),将风险水平的调控机制(即分位数)进行分离。实验结果表明,在《星际争霸多智能体挑战赛》(StarCraft Multi-agent Challenge)的多种场景下,DRIMA显著优于现有方法。尤为突出的是,DRIMA在不同奖励塑造方式与探索调度策略下均表现出稳健的性能,而此前的方法往往仅能学习到次优策略。