2달 전

카운트 기반 탐색과 내재적 동기의 통합

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos
카운트 기반 탐색과 내재적 동기의 통합
초록

우리는 에이전트가 환경에 대한 불확실성과 이러한 불확실성을 관찰 결과 간에 일반화하는 문제를 고려합니다. 특히, 비표준(reinforcement learning) 강화 학습에서의 탐사 문제에 초점을 맞춥니다. 내재 동기 부여 문헌에서 영감을 얻어, 우리는 밀도 모델을 사용하여 불확실성을 측정하고 임의의 밀도 모델로부터 가상 카운트(pseudo-count)를 도출하기 위한 새로운 알고리즘을 제안합니다. 이 기술은 카운트 기반 탐사 알고리즘을 비표준(non-tabular) 사례로 일반화할 수 있게 합니다. 우리는 이 아이디어를 Atari 2600 게임에 적용하여 원시 픽셀로부터 합리적인 가상 카운트를 제공합니다. 이러한 가상 카운트를 내재 보상으로 변환하여 몇몇 어려운 게임, 특히 유명히 어려운 '몬테주마의 복수(Montezuma's Revenge)' 포함하여 상당히 개선된 탐사를 얻었습니다.