2달 전
부트스트랩된 DQN을 통한 깊은 탐색
Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy

초록
복잡한 환경에서 효율적인 탐색은 여전히 강화학습의 주요 과제입니다. 본 연구에서는 계산적 및 통계적으로 효율적인 방식으로 랜덤화된 가치 함수를 사용하여 탐색하는 간단한 알고리즘인 부트스트랩 DQN을 제안합니다. 이 방법은 epsilon-그리디 탐색과 같은 잡음 전략과 달리 시간적으로 연장된(또는 깊은) 탐색을 수행합니다. 이는 지수적으로 더 빠른 학습을 가져올 수 있습니다. 우리는 이러한 이점을 복잡한 확률적 MDP와 대규모 아케이드 학습 환경에서 입증하였습니다. 부트스트랩 DQN은 대부분의 아타리 게임에서 학습 시간과 성능을 크게 개선하였습니다.