2달 전

분포적 강화학습을 위한 암시적 분위수 네트워크

Will Dabney; Georg Ostrovski; David Silver; Rémi Munos
분포적 강화학습을 위한 암시적 분위수 네트워크
초록

본 연구에서는 분포 기반 강화학습의 최근 발전을 바탕으로 일반적으로 적용 가능하고 유연하며 최신 수준의 분포 기반 DQN 변형 모델을 제시합니다. 이를 위해 상태-행동 반환 분포에 대한 전체 분위수 함수를 근사하기 위해 분위수 회귀를 사용하였습니다. 샘플 공간 위에서 분포를 재매개변수화함으로써 이는 암묵적으로 정의된 반환 분포를 생성하며, 다양한 위험 감응 정책 클래스를 만들어냅니다. 우리는 ALE(Arcade Learning Environment)의 57개 아타리 2600 게임에서 개선된 성능을 보여주며, 알고리즘의 암묵적으로 정의된 분포를 사용하여 아타리 게임에서 위험 감응 정책의 영향을 연구하였습니다.