11일 전

다중 에이전트 강화 학습을 위한 분포가치 함수의 통합적 인수분해 프레임워크

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee
다중 에이전트 강화 학습을 위한 분포가치 함수의 통합적 인수분해 프레임워크
초록

완전 협력적 다중 에이전트 강화학습(MARL) 환경에서는 각 에이전트의 부분 관측성과 다른 에이전트의 정책이 지속적으로 변화함으로써 환경이 매우 확률적(stochastic)이 된다. 이러한 문제를 해결하기 위해, 분포 기반 강화학습(distributional RL)과 가치 함수 인수분해(value function factorization) 방법을 통합할 수 있는 통합 프레임워크인 DFAC을 제안한다. 이 프레임워크는 기대값 기반의 가치 함수 인수분해 방법을 일반화하여 수익 분포(return distributions)의 인수분해를 가능하게 한다. DFAC의 타당성을 검증하기 위해, 먼저 확률적 보상이 존재하는 간단한 행렬 게임(matrix game)에서 가치 함수의 인수분해 가능성을 입증한다. 이후 스타크래프트 다중 에이전트 도전(Super Hard maps) 전 구간과 자체 설계한 6개의 초고난도(Ultra Hard maps)에서 실험을 수행하여, DFAC이 다양한 기준선(baselines)을 능가함을 보여준다.

다중 에이전트 강화 학습을 위한 분포가치 함수의 통합적 인수분해 프레임워크 | 최신 연구 논문 | HyperAI초신경