16일 전

DFAC 프레임워크: 다중 에이전트 분포형 Q-학습을 위한 분위수 혼합을 통한 가치 함수의 인자 분해

Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
DFAC 프레임워크: 다중 에이전트 분포형 Q-학습을 위한 분위수 혼합을 통한 가치 함수의 인자 분해
초록

완전 협업형 다중 에이전트 강화학습(MARL) 환경에서는 각 에이전트의 부분 관측성과 다른 에이전트들의 지속적인 정책 변화로 인해 환경이 매우 확률적이다. 이러한 문제를 해결하기 위해, 우리는 분포 기반 강화학습(distributional RL)과 가치 함수 인수분해(value function factorization) 방법을 결합하여 기대값 함수 인수분해 방법을 그 분포 기반 버전으로 일반화하는 분포 기반 가치 함수 인수분해(DFAC) 프레임워크를 제안한다. DFAC는 개별 유틸리티 함수를 결정론적 변수에서 확률적 변수로 확장하며, 총 보상의 분위수 함수를 분위수 혼합(mixture) 형태로 모델링한다. DFAC의 유효성을 검증하기 위해, 무작위 보상이 존재하는 간단한 2단계 행렬 게임에서 DFAC이 인수분해 가능함을 보이고, StarCraft 다중 에이전트 도전(Super Hard) 모든 태스크에서 실험을 수행하여, DFAC이 기대값 함수 인수분해 기반의 기준 모델들을 능가함을 입증하였다.

DFAC 프레임워크: 다중 에이전트 분포형 Q-학습을 위한 분위수 혼합을 통한 가치 함수의 인자 분해 | 최신 연구 논문 | HyperAI초신경