17일 전

먼저 복귀한 후 탐색하라

Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley, Jeff Clune

초록

강화학습의 잠재력은 고수준의 보상 함수만 지정함으로써 복잡한 순차적 결정 문제를 자율적으로 해결하는 데에 있다. 그러나 실제로는 간단하고 직관적인 보상이 희소하고 오도하는 피드백을 제공하는 경우가 많아, 강화학습 알고리즘은 이러한 상황에서 어려움을 겪는다. 이러한 함정을 피하기 위해서는 환경을 철저히 탐색해야 하지만, 그러한 탐색을 수행할 수 있는 알고리즘을 개발하는 것은 여전히 이 분야의 핵심 과제 중 하나이다. 우리는 효과적인 탐색의 주요 장애물이 과거에 방문한 상태로 돌아가는 능력을 알고리즘이 잊어버리는 것(“분리” 또는 detachment)과, 탐색을 시작하기 전에 먼저 해당 상태로 되돌아가지 못하는 것(“탈선” 또는 derailment)에 있다고 가정한다. 우리는 이러한 두 가지 문제를 직접 해결하는 알고리즘 가족인 Go-Explore을 제안한다. 이 알고리즘은 유망한 상태를 명시적으로 기억하고, 의도적으로 탐색을 시작하기 전에 반드시 그 상태로 되돌아가는 간단한 원칙을 적용한다. Go-Explore은 이전까지 해결되지 않았던 모든 Atari 게임을 해결하며, 어려운 탐색 문제에 있어서 기존 최고 성능을 초월하고, Montezuma's Revenge와 Pitfall과 같은 대규모 도전 과제에서는 수배 이상의 성능 향상을 달성한다. 또한, Go-Explore이 희소 보상 환경에서의 pick-and-place 로봇 작업에 실제 적용 가능한 잠재력을 보여준다. 더 나아가, 목표 조건화 정책(goal-conditioned policy)을 추가함으로써 Go-Explore의 탐색 효율성을 더욱 향상시키고, 학습 전반에 걸쳐 확률적 요소를 처리할 수 있도록 하는 것도 입증하였다. Go-Explore이 가져온 상당한 성능 향상은, 상태를 기억하고, 그 상태로 되돌아가며, 그곳에서 탐색을 수행하는 이러한 간단한 원칙이 탐색에 있어 강력하고 일반적인 접근법임을 시사한다. 이 통찰은 진정으로 지능적인 학습 에이전트를 창출하는 데 있어 결정적인 역할을 할 수 있을 것이다.