17일 전

Jam이 아닌: 방향성 있는 탐색 전략 학습

Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell
Jam이 아닌: 방향성 있는 탐색 전략 학습
초록

우리는 다양한 방향성 있는 탐색 정책을 학습함으로써 어려운 탐색 게임을 해결하기 위한 강화학습 에이전트를 제안한다. 최근 에이전트의 경험 데이터를 기반으로 k-최근접 이웃(k-nearest neighbors) 기반의 에피소딕 메모리(intrinsic reward)를 구성하여 방향성 있는 탐색 정책을 학습함으로써, 에이전트가 환경 내 모든 상태를 반복적으로 재방문하도록 유도한다. 또한, 자기지도형 역동성 모델(self-supervised inverse dynamics model)을 사용하여 최근접 이웃 탐색을 위한 임베딩을 학습함으로써, 새로운 상태에 대한 신호를 에이전트가 제어할 수 있는 요소에 편향시킨다. 우리는 보편적 가치 함수 근사기(Universal Value Function Approximators, UVFA) 프레임워크를 활용하여 동일한 신경망을 사용해 탐색과 활용 사이의 다양한 균형을 가진 여러 방향성 탐색 정책을 동시에 학습한다. 동일한 신경망을 다양한 수준의 탐색/활용 전략에 적용함으로써, 주로 탐색 중심의 정책에서 효과적인 활용 정책으로의 전이가 가능함을 입증하였다. 제안하는 방법은 여러 에이전트가 별도의 환경 인스턴스에서 병렬로 실행되는 현대적인 분산 강화학습 에이전트와 함께 작동할 수 있으며, Atari-57 벤치마크의 모든 어려운 탐색 게임에서 기준 에이전트의 성능을 두 배로 향상시키면서도 나머지 게임들에서도 매우 높은 점수를 유지하며, 중앙값 기준 인간 정규화 점수(1344.0%)를 달성하였다. 특히, 본 연구에서 제안한 알고리즘은 시연(demonstrations)이나 수작업 특징(hand-crafted features) 없이도 'Pitfall!' 게임에서 비제로 보상을 달성(평균 점수 8,400)하는 최초의 알고리즘이다.

Jam이 아닌: 방향성 있는 탐색 전략 학습 | 최신 연구 논문 | HyperAI초신경