2달 전
다중 패스 Q-네트워크를 이용한 매개변수화된 행동 공간을 가진 깊은 강화학습
Craig J. Bester; Steven D. James; George D. Konidaris

초록
강화 학습에서 매개변수화된 행동(Parameterised actions)은 이산 행동과 연속적인 행동 매개변수로 구성됩니다. 이는 고급 행동을 유연한 제어와 결합하여 복잡한 영역을 해결하기 위한 프레임워크를 제공합니다. 최근의 P-DQN 알고리즘은 이러한 행동 공간에서 학습하기 위해 딥 Q-네트워크를 확장하였습니다. 그러나, 이 알고리즘은 모든 행동 매개변수를 단일 결합 입력으로 처리하여, 그 이론적 기초가 무효화됩니다. 우리는 이 접근 방식의 문제점을 분석하고 이를 해결하기 위한 새로운 방법, 다중 패스 딥 Q-네트워크(Multi-pass deep Q-networks, MP-DQN)를 제안합니다. 실험 결과, MP-DQN이 플랫폼, 로봇 축구 골킥(Robot Soccer Goal), 그리고 하프 필드 공격(Half Field Offense) 도메인에서 데이터 효율성과 수렴된 정책 성능 측면에서 P-DQN 및 기타 이전 알고리즘보다 현저히 우수함을 입증하였습니다.