2달 전

가치 분해 네트워크를 이용한 협력적 다중 에이전트 학습

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel
가치 분해 네트워크를 이용한 협력적 다중 에이전트 학습
초록

우리는 단일 공동 보상 신호를 사용하는 협력적 다중 에이전트 강화 학습 문제를 연구합니다. 이 학습 문제의 클래스는 종종 큰 결합된 행동 및 관찰 공간 때문에 어려움을 겪습니다. 완전 중앙집중식과 분산식 접근 방식에서 우리는 허위 보상(spurious rewards) 문제와 부분적으로 관찰 가능한 환경에서 발생하는 '게으른 에이전트(lazy agent)' 현상을 발견했습니다. 이러한 문제들을 해결하기 위해, 우리는 새로운 가치 분해 네트워크 구조를 사용하여 개별 에이전트를 훈련시키는 방법을 제안합니다. 이 구조는 팀 가치 함수를 에이전트별 가치 함수로 분해하는 방법을 학습합니다. 우리는 부분적으로 관찰 가능한 다양한 다중 에이전트 영역에서 실험 평가를 수행하고, 이러한 가치 분해 학습이 가중치 공유(weight sharing), 역할 정보(role information) 및 정보 채널(information channels)과 결합될 때 특히 우수한 결과를 도출함을 보여줍니다.

가치 분해 네트워크를 이용한 협력적 다중 에이전트 학습 | 최신 연구 논문 | HyperAI초신경