RUDDER: 지연된 보상의 반환 분해

우리는 유한 마르코프 결정 과정(Markov Decision Processes, MDPs)에서 지연된 보상에 대한 새로운 강화 학습 접근법인 RUDDER를 제안합니다. MDPs에서 Q-값은 즉시 예상 보상과 미래의 예상 보상을 더한 값입니다. 후자는 시간 차이(TD) 학습에서의 편향 문제와 몬테카를로(Monte Carlo, MC) 학습에서의 높은 분산 문제와 관련이 있습니다. 이러한 문제들은 보상이 지연될 때 더욱 심각해집니다. RUDDER는 미래의 예상 보상을 0으로 만드는 것을 목표로 하여, Q-값 추정을 즉시 보상의 평균 계산으로 단순화합니다. 우리는 미래의 예상 보상을 0으로 만들기 위해 다음과 같은 두 가지 새로운 개념을 제안합니다.(i) 리워드 재분배: 이는 최적 정책이 동일한 반환 등가 결정 과정(return-equivalent decision processes)을 생성하며, 최적일 때 미래의 예상 보상이 0이 됩니다.(ii) 기여도 분석을 통한 반환 분해: 이는 강화 학습 작업을 딥러닝이 우수하게 수행하는 회귀 작업으로 변환합니다.인공적인 지연된 보상 작업에서 RUDDER는 MC보다 상당히 빠르며, 몬테카를로 트리 검색(Monte Carlo Tree Search, MCTS), TD(λ), 그리고 리워드 쉐이핑 접근법보다 지수적으로 더 빠릅니다. 아타리 게임에서는 PPO(Proximal Policy Optimization) 베이스라인 위에 RUDDER를 적용하면 점수가 개선되며, 특히 지연된 보상을 가진 게임에서 그 효과가 두드러집니다. 소스 코드는 \url{https://github.com/ml-jku/rudder}에서 확인할 수 있으며, 시연 영像是 \url{https://goo.gl/EQerZV}에서 제공됩니다.