17일 전

협동적 다중 에이전트 강화 학습을 위한 분해형 소프트 액터-크리틱 방법

Yuan Pu, Shaochen Wang, Rui Yang, Xin Yao, Bin Li
협동적 다중 에이전트 강화 학습을 위한 분해형 소프트 액터-크리틱 방법
초록

딥 강화 학습 기법은 여러 도전적인 협동 다중 에이전트 과제에서 뛰어난 성능을 보여주고 있다. 두 가지 주요한 전망 있는 연구 방향은 다중 에이전트 가치 함수 분해와 다중 에이전트 정책 그라디언트이다. 본 논문에서는 위 두 기법의 장점을 효과적으로 결합한 새로운 분해형 다중 에이전트 소프트 액터-크리티크(mSAC) 방법을 제안한다. 주요 모듈로는 분해형 Q 네트워크 아키텍처, 이산 확률적 정책, 그리고 사후적 우수성 함수(선택 사항)가 포함된다. 이론적으로 mSAC는 이산 및 연속 행동 공간에서 모두 효율적인 오프-폴리시 학습을 지원하며, 크레딧 할당 문제를 부분적으로 해결할 수 있다. 스타크래프트 II 미크로매니지먼트 협동 다중 에이전트 벤치마크에서 mSAC의 성능을 다양한 변형과 비교하여 실험적으로 조사하고, 각 구성 요소의 영향을 분석하였다. 실험 결과, mSAC는 정책 기반 접근법인 COMA보다 상당히 뛰어난 성능을 보였으며, 점근적 성능 지표에서 최첨단 가치 기반 접근법인 QMIX와 경쟁 가능한 결과를 달성하였다. 또한, 2c_vs_64zg 및 MMM2와 같은 큰 행동 공간 과제에서도 매우 우수한 성능을 기록하였다.

협동적 다중 에이전트 강화 학습을 위한 분해형 소프트 액터-크리틱 방법 | 최신 연구 논문 | HyperAI초신경