17일 전

스타크래프트 다중 에이전트 도전 +: 정밀한 보상 함수 없이 다단계 작업 및 환경적 요인 학습

Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong, Se-Young Yun
스타크래프트 다중 에이전트 도전 +: 정밀한 보상 함수 없이 다단계 작업 및 환경적 요인 학습
초록

본 논문에서는 다단계 작업을 수행하고 정확한 보상 함수 없이 환경적 요인을 활용하는 능력을 학습하는 데 중점을 둔 새로운 벤치마크인 StarCraft 다에이전트 도전 과제+(SMAC+)를 제안한다. 기존의 표준 다에이전트 강화학습(MARL) 벤치마크로 인정받아온 SMAC는 주로 모든 에이전트가 협력하여 접근하는 적을 제거하는 데에 초점을 두며, 명확한 보상 함수와 세부적인 조작을 통해 성능을 극대화하는 데에 중점을 두었다. 반면 본 도전 과제는 MARL 알고리즘이 암묵적인 다단계 작업과 환경적 요인을 효율적으로 탐색하고, 미세 제어 능력을 갖추는 능력을 평가하는 데에 관심을 갖는다. 본 연구는 공격 및 방어 두 가지 시나리오를 모두 다룬다. 공격 시나리오에서는 에이전트가 먼저 적을 탐지한 후 이를 제거하는 과정을 학습해야 한다. 방어 시나리오에서는 지형적 특성을 활용해야 하며, 예를 들어 적의 공격을 더 어렵게 만들기 위해 보호 구조물 뒤에 위치하는 전략을 취해야 한다. SMAC+ 환경에서 다양한 MARL 알고리즘을 평가한 결과, 최근의 접근 방식은 이전 도전 과제와 유사한 설정에서는 잘 작동하지만, 공격 시나리오에서는 성능이 저하되는 경향을 보였다. 또한, 개선된 탐색 전략이 성능 향상에 긍정적인 영향을 미치는 것으로 관찰되었으나, 모든 시나리오를 완전히 해결하지는 못했다. 본 연구는 향후 MARL 연구의 새로운 방향성을 제시한다.