2달 전

QMIX: 딥 멀티에이전트 강화학습을 위한 단조 증가 가치 함수 분해

Tabish Rashid; Mikayel Samvelyan; Christian Schroeder de Witt; Gregory Farquhar; Jakob Foerster; Shimon Whiteson
QMIX: 딥 멀티에이전트 강화학습을 위한 단조 증가 가치 함수 분해
초록

많은 실제 환경에서 에이전트들의 팀은 분산된 방식으로 행동하면서 그들의 행동을 조정해야 합니다. 동시에, 전역 상태 정보가 제공되고 커뮤니케이션 제약이 해제된 시뮬레이션 또는 실험실 환경에서 에이전트들을 중앙집중식으로 훈련시키는 것이 가능합니다. 추가 상태 정보를 기반으로 공동 행동 가치를 학습하는 것은 중앙집중식 학습을 활용하는 매력적인 방법이지만, 이후 분산된 정책을 추출하기 위한 최적의 전략은 명확하지 않습니다. 우리의 해결책은 QMIX로, 이는 중앙집중식으로 끝까지 분산된 정책을 훈련시킬 수 있는 새로운 가치 기반 방법입니다. QMIX는 각 에이전트의 로컬 관찰에만 조건부인 개별 가치의 복잡한 비선형 조합으로 공동 행동 가치를 추정하는 네트워크를 사용합니다. 우리는 구조적으로 공동 행동 가치가 개별 에이전트 가치에 대해 단조 증가함을 보장하여, 오프-정책 학습에서 공동 행동 가치의 효율적인 최대화를 가능하게 하며, 중앙집중식과 분산식 정책 간의 일관성을 보장합니다. 우리는 QMIX를 StarCraft II 마이크로매니지먼트 과제의 어려운 세트에서 평가하고, QMIX가 기존의 가치 기반 다중 에이전트 강화학습 방법보다 크게 우수한 성능을 보임을 입증하였습니다.