11일 전

심층 다중 에이전트 강화학습을 위한 단조성 가치 함수 분해

Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster, Shimon Whiteson
심층 다중 에이전트 강화학습을 위한 단조성 가치 함수 분해
초록

실제 세계의 많은 상황에서, 에이전트 팀은 분산된 방식으로 행동하면서도 상호 조율을 수행해야 한다. 동시에, 전역 상태 정보가 제공되고 통신 제약이 없는 환경에서 에이전트들을 중앙집중식으로 훈련하는 것이 가능할 때가 많다. 추가 상태 정보를 조건으로 하는 공동 행동가치( joint action-values)를 학습하는 것은 중앙집중식 훈련을 효과적으로 활용하는 매력적인 방법이지만, 이후 분산된 정책을 어떻게 추출할지에 대한 최적의 전략은 명확하지 않다. 본 연구의 해결책은 QMIX로, 중앙집중식으로 종단 간(end-to-end) 분산 정책을 훈련할 수 있는 새로운 가치 기반 방법이다. QMIX는 각 에이전트의 가치에 대한 단조 증가(모노톤) 조합을 통해 공동 행동가치를 추정하는 믹싱 네트워크(mixing network)를 사용한다. 이 방법은 믹싱 네트워크 내에서 비음수 가중치(non-negative weights)를 사용함으로써, 공동 행동가치가 각 에이전트의 가치에 대해 단조 증가하도록 구조적으로 강제함으로써, 중앙집중식 정책과 분산식 정책 간의 일관성을 보장한다. QMIX의 성능을 평가하기 위해, 심층 다중 에이전트 강화학습을 위한 새로운 벤치마크로 스타크래프트 다중에이전트 챌린지(StarCraft Multi-Agent Challenge, SMAC)를 제안한다. 우리는 QMIX를 SMAC의 도전적인 시나리오 세트에 적용하여, 기존의 다중에이전트 강화학습 방법들보다 훨씬 우수한 성능을 보임을 입증한다.