11일 전

ACE: 양방향 동작의존성을 갖는 협업 다중 에이전트 Q-학습

Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang
ACE: 양방향 동작의존성을 갖는 협업 다중 에이전트 Q-학습
초록

다중 에이전트 강화 학습(MARL)은 여러 에이전트가 동시에 정책을 업데이트할 때마다 목표가 지속적으로 변화하는 비정상성(non-stationarity) 문제에 직면한다. 본 논문에서는 기본 원리로부터 출발하여, 양방향 동작의존 Q-학습(ACE: Action-Dependent Q-learning with Bidirectional Dependency)을 제안함으로써 이 비정상성 문제를 해결한다. ACE의 핵심은 단일 에이전트만 순차적으로 동작을 수행할 수 있도록 하는 순차적 의사결정 과정이다. 이 과정에서 추론 단계에서는 각 에이전트가 이전 에이전트들이 취한 동작을 고려하여 자신의 가치 함수를 최대화하며, 학습 단계에서는 후속 에이전트들이 자신의 선택한 동작에 어떻게 반응했는지에 따라 발생하는 TD 오차를 최소화한다. 양방향 의존성 구조를 설계함으로써 ACE는 다중 에이전트 MDP를 단일 에이전트 MDP로 효과적으로 변환한다. ACE 프레임워크는 적절한 네트워크 표현을 식별함으로써 동작 의존성을 정의하여, 순차적 의사결정 과정을 단일 전방 전파(forward pass) 내에서 암묵적으로 계산하도록 구현하였다. ACE의 타당성을 검증하기 위해 두 가지 MARL 벤치마크에서 강력한 기준 알고리즘들과 비교 실험을 수행하였다. 실증 실험 결과, ACE는 Google Research Football 및 StarCraft Multi-Agent Challenge(SMAC)에서 최신 기술을 크게 능가하는 성능을 보였다. 특히 SMAC 태스크에서 ACE는 거의 모든 어려운 및 초난이도 지도에서 100% 성공률을 달성하였다. 또한 ACE와 관련된 다양한 연구 문제—확장성, 일반화 가능성, 실용성—에 대해 심층적으로 탐구하였다. 코드는 추가 연구를 촉진하기 위해 공개된다.

ACE: 양방향 동작의존성을 갖는 협업 다중 에이전트 Q-학습 | 최신 연구 논문 | HyperAI초신경