2달 전

QTRAN: 협력적 다중 에이전트 강화 학습을 위한 변환을 통한 인수 분해 학습

Kyunghwan Son; Daewoo Kim; Wan Ju Kang; David Earl Hostallero; Yung Yi
QTRAN: 협력적 다중 에이전트 강화 학습을 위한 변환을 통한 인수 분해 학습
초록

최근 인기 있는 중앙 집중식 훈련 및 분산 실행(CTDE, Centralized Training with Decentralized Execution) 체제에서 다중 에이전트 강화 학습(MARL, Multi-Agent Reinforcement Learning) 과제에 대한 가치 기반 솔루션을 탐구합니다. 그러나 VDN과 QMIX는 분산 실행을 위해 공동 행동 가치 함수를 개별적인 것들로 인수분해하는 아이디어를 사용하는 대표적인 예입니다. VDN과 QMIX는 인수분해의 구조적 제약 조건인 가법성(additivity) 및 단조성(monotonicity)으로 인해 분해 가능한 MARL 과제의 일부만 해결할 수 있습니다. 본 논문에서는 이러한 구조적 제약 조건에서 자유롭고, 원래의 공동 행동 가치 함수를 동일한 최적 행동을 가지면서 쉽게 인수분해할 수 있는 방법으로 변환하는 새로운 인수분해 방법인 QTRAN을 제안합니다. QTRAN은 VDN이나 QMIX보다 더 일반적인 인수분해를 보장하므로, 이전 방법보다 훨씬 넓은 범위의 MARL 과제를 포함합니다. 다omain 가우시안-스퀴즈와 수정된 포식자-피식자 게임에 대한 실험 결과, QTRAN이 특히 비협력적 행동에 대해 더욱 엄격한 패널티를 부과하는 게임에서 뛰어난 성능을 보임을 확인하였습니다.