2달 전

다중 패스 Q-네트워크를 이용한 매개변수화된 행동 공간을 가진 깊은 강화학습

Craig J. Bester; Steven D. James; George D. Konidaris
다중 패스 Q-네트워크를 이용한 매개변수화된 행동 공간을 가진 깊은 강화학습
초록

강화 학습에서 매개변수화된 행동(Parameterised actions)은 이산 행동과 연속적인 행동 매개변수로 구성됩니다. 이는 고급 행동을 유연한 제어와 결합하여 복잡한 영역을 해결하기 위한 프레임워크를 제공합니다. 최근의 P-DQN 알고리즘은 이러한 행동 공간에서 학습하기 위해 딥 Q-네트워크를 확장하였습니다. 그러나, 이 알고리즘은 모든 행동 매개변수를 단일 결합 입력으로 처리하여, 그 이론적 기초가 무효화됩니다. 우리는 이 접근 방식의 문제점을 분석하고 이를 해결하기 위한 새로운 방법, 다중 패스 딥 Q-네트워크(Multi-pass deep Q-networks, MP-DQN)를 제안합니다. 실험 결과, MP-DQN이 플랫폼, 로봇 축구 골킥(Robot Soccer Goal), 그리고 하프 필드 공격(Half Field Offense) 도메인에서 데이터 효율성과 수렴된 정책 성능 측면에서 P-DQN 및 기타 이전 알고리즘보다 현저히 우수함을 입증하였습니다.

다중 패스 Q-네트워크를 이용한 매개변수화된 행동 공간을 가진 깊은 강화학습 | 최신 연구 논문 | HyperAI초신경