2달 전

분산 우선순위 경험 재생

Dan Horgan; John Quan; David Budden; Gabriel Barth-Maron; Matteo Hessel; Hado van Hasselt; David Silver
분산 우선순위 경험 재생
초록

우리는 대규모 심층 강화 학습을 위한 분산 아키텍처를 제안합니다. 이 아키텍처는 에이전트가 이전에 가능했던 것보다 몇 배 더 많은 데이터에서 효과적으로 학습할 수 있도록 합니다. 알고리즘은 행동과 학습을 분리합니다: 행동자는 공유된 신경망에 따라 환경의 자체 인스턴스와 상호작용하며, 그 결과로 얻어진 경험을 공유된 경험 재생 메모리에 축적합니다; 학습자는 경험 샘플을 재생하고 신경망을 업데이트합니다. 이 아키텍처는 우선순위 경험이 재생(prioritized experience replay)에 의존하여 행동자가 생성한 가장 중요한 데이터만 집중합니다. 우리의 아키텍처는 아케이드 학습 환경(Arcade Learning Environment)에서 기존 최신 기술(state of the art)을 크게 개선하며, 훈련 시간의 일부만으로 더 나은 최종 성능을 달성하였습니다.