13일 전
분산 강화 학습에서의 반복 경험 재생
{Steven Kapturowski, Will Dabney, Remi Munos, John Quan, Georg Ostrovski}

초록
최근 분산 학습을 통한 강화학습(RL) 에이전트의 성공적인 사례들을 바탕으로, 본 논문에서는 분산 우선순위 경험 재생(distributed prioritized experience replay)을 통해 RNN 기반의 RL 에이전트를 학습하는 방안을 탐구한다. 본 연구는 표현의 편차(representational drift)와 순환 상태의 노후화(recurrent state staleness)를 초래하는 파라미터 지연(parameter lag)의 영향을 분석하고, 실험적으로 개선된 학습 전략을 도출한다. 단일 네트워크 아키텍처와 고정된 하이퍼파라미터 세트를 사용함으로써, 제안하는 에이전트인 Recurrent Replay Distributed DQN은 Atari-57에서 기존 최고 성능을 네 배로 늘렸으며, DMLab-30에서는 기존 최고 성능을 초과하였다. 이는 57개의 Atari 게임 중 52개에서 인간 수준의 성능을 넘은 최초의 에이전트이다.