17일 전

분포형 다중 에이전트 강화 학습을 위한 리스크 원인의 분리

{Jinwoo Shin, Yung Yi, Junsu Kim, Kyunghwan Son}
분포형 다중 에이전트 강화 학습을 위한 리스크 원인의 분리
초록

협동적 다중 에이전트 강화 학습에서 상태 전이, 보상, 행동 모두 관측되는 장기적 수익에 무작위성(또는 불확실성)을 유도할 수 있다. 이러한 무작위성은 두 가지 위험 원인에서 비롯된다: (a) 에이전트 수준의 위험(즉, 주어진 에이전트에 대해 동료 에이전트들이 얼마나 협력적으로 행동하는가), 그리고 (b) 환경 수준의 위험(즉, 전이의 확률적 특성). 이 두 가지 위험 원인이 에이전트의 강건한 정책 학습에 모두 중요한 요소임에도 불구하고, 기존 연구들은 이들을 분리하지 않거나 단일 위험 원소만 다루는 경향이 있어, 최적의 균형점에 도달하지 못할 수 있다. 본 논문에서는 위험 원인을 분리할 수 있는 새로운 프레임워크인 분리형 위험 민감 다중 에이전트 강화 학습(Disentangled RIsk-sensitive Multi-Agent reinforcement learning, DRIMA)을 제안한다. 본 연구의 핵심 아이디어는 중앙집중적 학습과 분산 실행 모두에서 계층적 분위수 구조(hierarchical quantile structure)와 분위수 회귀(quantile regression)를 활용하여 위험 수준의 조절 요소(즉, 분위수)를 분리하는 것이다. 실험 결과, DRIMA는 스타크래프트 다중 에이전트 챌린지(StarCraft Multi-agent Challenge)의 다양한 시나리오에서 기존 방법들을 크게 능가함을 보였다. 특히, 보상 설계나 탐색 스케줄에 관계없이 DRIMA는 강건한 성능을 유지하는 반면, 기존 방법들은 단지 부분 최적의 정책만 학습하는 것으로 나타났다.

분포형 다중 에이전트 강화 학습을 위한 리스크 원인의 분리 | 최신 연구 논문 | HyperAI초신경