2달 전

우선순위 경험 재생성

Tom Schaul; John Quan; Ioannis Antonoglou; David Silver

초록

경험 재생(Experience replay)은 온라인 강화 학습 에이전트가 과거의 경험을 기억하고 재사용할 수 있게 하는 기술입니다. 이전 연구에서는 재생 메모리에서 경험 전환들이 균일한 확률로 샘플링되었습니다. 그러나 이러한 접근 방식은 중요성에 상관없이 원래 경험된 빈도와 동일한 빈도로 전환을 재생하기 때문에, 효율적인 학습에는 한계가 있습니다. 본 논문에서는 중요한 전환들을 더 자주 재생하여 학습 효율성을 높이는 경험 우선 순위 부여 프레임워크를 개발하였습니다. 우리는 이 경험이 우선순위를 가진 재생 기법을 딥 Q-네트워크(Deep Q-Networks, DQN)에 적용하였습니다. DQN은 많은 아타리 게임에서 인간 수준의 성능을 달성한 강화 학습 알고리즘입니다. 우선순위를 가진 경험이 재생된 DQN은 새로운 최고 수준의 성능을 달성하였으며, 49개 게임 중 41개에서 균일한 재생을 사용한 DQN보다 우수한 성능을 보였습니다.