대규모 호기심 주도 학습 연구

강화 학습 알고리즘은 에이전트 외부에서 발생하는 환경 보상(reward)을 신중하게 설계하여 의존합니다. 그러나 각 환경에 대해 수작업으로 설계된 밀도 높은 보상을 부여하는 것은 확장성이 없으므로, 에이전트 내부에서 발생하는 보상 함수를 개발할 필요성이 제기되었습니다. 호기심은 예측 오차를 보상 신호로 사용하는 종류의 내재적 보상 함수입니다. 본 논문에서는 다음과 같은 내용을 다룹니다: (a) 54개의 표준 벤치마크 환경, 아타리 게임 스위트를 포함하여, 순수한 호기심 주도 학습(purely curiosity-driven learning), 즉 외부 보상 없이 이루어지는 학습에 대한 첫 번째 대규모 연구를 수행하였습니다. 결과는 놀랍게도 좋은 성능을 보였으며, 많은 게임 환경의 수작업으로 설계된 외부 보상과 내재적 호기심 목표 간에 높은 일치성을 나타냈습니다. (b) 예측 오차를 계산하기 위해 다양한 특성 공간(feature space)을 사용할 때의 효과를 조사하였으며, 무작위 특성(random features)이 많은 인기 있는 강화 학습(RL) 게임 벤치마크에서 충분하다는 것을 보였습니다. 그러나 학습된 특성(learned features)은 일반적으로 더 우수한 성능을 나타내며, 예를 들어 슈퍼 마리오 브라더스(Super Mario Bros.)의 새로운 게임 레벨에도 더 잘 일반화되는 것으로 나타났습니다. (c) 확률적 설정(stochastic setups)에서 예측 기반 보상(prediction-based rewards)의 한계점을 시연하였습니다. 게임 플레이 영상과 코드는 https://pathak22.github.io/large-scale-curiosity/에서 확인할 수 있습니다.