11일 전

다중 에이전트 환경에서 이중 중앙 집중형 비평가를 이용한 과대평가 편향 감소

Johannes Ackermann, Volker Gabler, Takayuki Osa, Masashi Sugiyama
다중 에이전트 환경에서 이중 중앙 집중형 비평가를 이용한 과대평가 편향 감소
초록

실제 세계의 많은 과제는 다수의 에이전트가 함께 협력하여 수행되어야 한다. 최근 몇 년간 다중 에이전트 강화학습(Multi-agent reinforcement learning, RL) 방법이 이러한 과제를 해결하기 위해 제안되었으나, 현재의 대부분의 방법들은 정책을 효율적으로 학습하지 못하는 경향이 있다. 이에 따라 우리는 단일 에이전트 RL에서 흔히 나타나는 공통적인 약점인 가치 함수 과대평가 편향(value function overestimation bias)이 다중 에이전트 환경에서도 존재하는지 조사하였다. 연구 결과를 바탕으로, 이 편향을 줄이기 위해 이중 중앙 집중형 크리틱(double centralized critics)을 활용하는 새로운 접근법을 제안한다. 제안한 방법은 협력과 경쟁이 혼합된 여섯 가지 과제에서 평가되었으며, 기존 방법들에 비해 뚜렷한 성능 우위를 보였다. 마지막으로, 다중 에이전트 방법을 고차원 로봇 과제에 적용하는 가능성을 탐구하였으며, 제안한 방법이 이 분야에서 분산형 정책(decentralized policies)을 학습하는 데 유용함을 보여주었다.

다중 에이전트 환경에서 이중 중앙 집중형 비평가를 이용한 과대평가 편향 감소 | 최신 연구 논문 | HyperAI초신경