17일 전

분포 강화 학습을 위한 완전 매개변수화된 분위수 함수

Derek Yang, Li Zhao, Zichuan Lin, Tao Qin, Jiang Bian, Tieyan Liu
분포 강화 학습을 위한 완전 매개변수화된 분위수 함수
초록

분포 기반 강화학습(Distributional Reinforcement Learning, RL)은 전통적인 RL과 달리 총 보상의 기대값이 아니라 보상 분포를 직접 추정하는 점에서 차이를 보이며, 아타리 게임에서 최고 성능을 달성한 바 있다. 실용적인 분포 기반 RL 알고리즘에서 가장 핵심적인 과제는 추정된 분포를 어떻게 파라미터화하여 진정한 연속 분포를 더 잘 근사할 수 있을지를 고민하는 것이다. 기존의 분포 기반 RL 알고리즘은 분포 함수의 확률 측면이나 보상 값 측면 중 하나만 파라미터화하고, 다른 측면은 C51, QR-DQN과 같이 균일하게 고정하거나, IQN과 같이 무작위로 샘플링하는 방식을 취하고 있다. 본 논문에서는 분포 기반 RL을 위해 양쪽 축을 모두 파라미터화하는 완전 파라미터화된 분위수 함수(quantile function)를 제안한다. 즉, 분위수 분포의 분위수 분율 축(즉, x축)과 값 축(즉, y축)을 모두 파라미터화한다. 제안하는 알고리즘은 분위수 분율을 생성하는 분율 제안 네트워크(fraction proposal network)와 해당 분율에 대응하는 분위수 값을 출력하는 분위수 값 네트워크(quantile value network)로 구성되며, 두 네트워크는 함께 학습되어 진정한 분포에 대한 최적의 근사를 찾는다. 55종의 아타리 게임에서 수행된 실험 결과, 제안 알고리즘이 기존 분포 기반 RL 알고리즘을 크게 능가하며, 분산되지 않은(agent) 비분산형 에이전트에 대해 아타리 학습 환경(Atari Learning Environment)에서 새로운 기록을 수립하였다.

분포 강화 학습을 위한 완전 매개변수화된 분위수 함수 | 최신 연구 논문 | HyperAI초신경