2달 전
리액터: 강화학습을 위한 빠르고 샘플 효율적인 액터-크리틱 에이전트
Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos

초록
이 연구에서는 Prioritized Dueling DQN (Wang et al., 2016) 및 Categorical DQN (Bellemare et al., 2017)보다 샘플 효율성이 높고, A3C (Mnih et al., 2016)보다 더 우수한 실행 시간 성능을 제공하는 새로운 에이전트 아키텍처인 Reactor를 제시합니다. 첫 번째 기여는 다단계 오프-폴리시 업데이트를 분포적 강화학습 환경으로 가져오는 새로운 정책 평가 알고리즘인 Distributional Retrace입니다. 이 접근 방식은 기대값 평가를 위해 설계된 여러 종류의 다단계 정책 평가 알고리즘을 분포적 알고리즘으로 변환하는 데 사용될 수 있습니다. 다음으로, 우리는 \b{eta}-leave-one-out 정책 그래디언트 알고리즘을 소개합니다. 이 알고리즘은 액션 값들을 베이스라인으로 사용하여 분산과 편향 사이의 균형을 개선합니다. 마지막으로, 우리는 시퀀스용 새로운 우선 순위 재생알고리즘을 제안합니다. 이 알고리즘은 인접 관측치들의 시간적 국소성을 활용하여 더 효율적인 재생 우선순위를 결정합니다. Atari 2600 벤치마크를 사용하여 이러한 각 혁신이 샘플 효율성과 최종 에이전트 성능에 기여함을 보여줍니다. 마지막으로, Reactor가 2억 프레임과 하루 미만의 학습 후 최상의 성능을 달성함을 입증합니다.