2달 전

대안적 다중 에이전트 정책 그래디언트

Jakob Foerster; Gregory Farquhar; Triantafyllos Afouras; Nantas Nardelli; Shimon Whiteson
대안적 다중 에이전트 정책 그래디언트
초록

협력 다중 에이전트 시스템은 네트워크 패킷 라우팅 및 자율 차량의 조정과 같은 많은 실제 문제를 모델링하는 데 자연스럽게 사용될 수 있습니다. 이러한 시스템에 대한 분산된 정책을 효율적으로 학습할 수 있는 새로운 강화 학습 방법에 대한 수요가 매우 큽니다. 이를 위해 우리는 카운터팩추얼 다중 에이전트(COMA) 정책 그래디언트라는 새로운 다중 에이전트 액터-크리틱 방법을 제안합니다. COMA는 중앙 집중식 크리틱을 사용하여 Q-함수를 추정하고, 분산된 액터를 사용하여 에이전트들의 정책을 최적화합니다. 또한, 다중 에이전트 공헌도 할당의 도전 과제를 해결하기 위해, 다른 에이전트들의 행동은 고정된 상태에서 단일 에이전트의 행동만 제외하는 카운터팩추얼 베이스라인을 사용합니다. COMA는 카운터팩추얼 베이스라인을 단일 순방향 패스에서 효율적으로 계산할 수 있도록 하는 크리틱 표현도 사용합니다. 우리는 부분 관측 가능성이 상당히 큰 분산형 변종을 사용하여 StarCraft 유닛 마이크로 매니지먼트 테스트베드에서 COMA를 평가했습니다. 이 설정에서 COMA는 다른 다중 에이전트 액터-크리틱 방법들보다 평균 성능을 크게 개선했으며, 가장 잘 수행한 에이전트들은 전체 상태에 접근할 수 있는 최신 중앙 집중식 컨트롤러들과 경쟁력을 보였습니다.