2달 전

신경 밀도 모델을 이용한 카운트 기반 탐색

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos
신경 밀도 모델을 이용한 카운트 기반 탐색
초록

Bellemare 등 (2016)은 밀도 모델에서 유래된 의사 카운트(pseudo-count) 개념을 도입하여 비표준 강화 학습(non-tabular reinforcement learning)에 카운트 기반 탐사를 일반화하였습니다. 이 의사 카운트는 DQN 에이전트의 탐사 보너스(exploration bonus)를 생성하는 데 사용되었으며, 혼합 몬테카를로 업데이트(mixed Monte Carlo update)와 결합하여 아타리 2600 게임 '몬테주마의 복수(Montezuma's Revenge)'에서 최고 수준의 성능을 달성하였습니다.본 연구에서는 그들의 작업에서 여전히 해결되지 않은 두 가지 질문을 고려합니다. 첫째, 탐사에 있어 밀도 모델의 품질이 얼마나 중요한가? 둘째, 몬테카를로 업데이트가 탐사에서 어떤 역할을 하는가? 우리는 첫 번째 질문에 대해 고급 이미지 신경 밀도 모델인 PixelCNN을 사용하여 의사 카운트를 제공하는 방법을 시연함으로써 답합니다. 특히, Bellemare 등 (2016)의 접근법이 모델에 대한 가정이 위반될 때 적응하는 내재적 어려움들을 검토하였습니다. 그 결과는 특별한 장비 없이도 더 실용적이고 일반적인 알고리즘을 요구하게 되었습니다.우리는 다양한 에이전트 구조와 PixelCNN 의사 카운트를 결합하여 여러 어려운 아타리 게임에서 최고 수준의 성능을 크게 개선하였습니다. 예상치 못한 발견 중 하나는 혼합 몬테카를로 업데이트가 '몬테주마의 복수'와 같은 가장 희소한 환경에서도 탐사를 촉진하는 강력한 도구라는 것입니다.

신경 밀도 모델을 이용한 카운트 기반 탐색 | 최신 연구 논문 | HyperAI초신경