2달 전

분포 기반 강화 학습과 분위수 회귀

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos
분포 기반 강화 학습과 분위수 회귀
초록

강화 학습에서 에이전트는 행동을 취하고 다음 상태와 보상을 관찰함으로써 환경과 상호작용합니다. 이 상태 전이, 보상, 그리고 행동들이 확률적으로 샘플링될 때, 관찰된 장기적인 리턴에 무작위성이 유발될 수 있습니다. 전통적으로 강화 학습 알고리즘은 이 무작위성을 평균내어 가치 함수를 추정합니다. 본 논문에서는 Bellemare, Dabney, 그리고 Munos (2017)가 제시한 최근 연구를 바탕으로, 리턴의 분포를 명시적으로 모델링하는 분포 기반 접근 방식을 강화 학습에 적용하는 것을 다룹니다. 즉, 가치 함수 대신 가치 분포를 학습하는 방법을 검토합니다. 우리는 Bellemare, Dabney, 그리고 Munos (2017)가 제시한 이론적 및 알고리즘적 결과 사이의 간극을 줄이는 몇 가지 결과를 제시합니다. 첫째, 우리는 기존 결과들을 근사 분포 설정으로 확장합니다. 둘째, 우리의 이론적 공식화와 일치하는 새로운 분포 기반 강화 학습 알고리즘을 제시합니다. 마지막으로, 이 새로운 알고리즘을 Atari 2600 게임에서 평가하여 DQN의 최근 개선 사항들을 포함하여 관련 분포 기반 알고리즘 C51보다 크게 우수한 성능을 보임을 확인하였습니다.