2달 전

강화학습에서 상황 인식 탐색

Jongwook Choi; Yijie Guo; Marcin Moczulski; Junhyuk Oh; Neal Wu; Mohammad Norouzi; Honglak Lee
강화학습에서 상황 인식 탐색
초록

본 논문은 환경의 상황 인식 및 제어 가능한 측면을 학습하는 것이 강화학습에서 더 나은 탐색을 이끌어낼 수 있는지를 조사합니다. 이 질문을 연구하기 위해, 우리는 아케이드 학습 요소(Arcade Learning Environment, ALE)에서 평가된 이 가설의 구현 사례를 고려하였습니다. 본 연구에서는 관찰치 내의 제어 가능한 요소들을 발견하는 주의력 역학 모델(Attentive Dynamics Model, ADM)을 개발하였습니다. 이러한 요소들은 종종 아타리 게임에서 캐릭터의 위치와 관련되어 있습니다. ADM은 자기 지도 방식으로 에이전트가 취한 행동을 예측하도록 훈련되었습니다. 학습된 상황 인식 정보는 탐색 목적으로 상태 표현의 일부로 사용되었습니다.우리는 액터-크리틱 알고리즘과 카운트 기반 탐색 방법을 결합하여 우리 표현을 사용함으로써 희박한 보상으로 유명한 여러 아타리 게임에서 뛰어난 결과를 달성하였음을 입증하였습니다. 예를 들어, 전문가 시연이나 명시적인 고급 정보(예: RAM 상태) 또는 감독 데이터 없이 몬테주마 리벤지(Montezuma's Revenge)에서 11,000점 이상의 최고 성적(state-of-the-art score)을 기록하였습니다. 우리의 실험은 상황 인식이 강화학습에서 탐색 문제를 해결하는 데 있어 매우 강력한 개념임을 확인해주며, 이를 바탕으로 향후 연구에 대한 흥미로운 질문들을 제기하게 합니다.