2달 전
대규모 병렬 방법을 이용한 심층 강화 학습
Arun Nair; Praveen Srinivasan; Sam Blackwell; Cagdas Alcicek; Rory Fearon; Alessandro De Maria; Vedavyas Panneershelvam; Mustafa Suleyman; Charles Beattie; Stig Petersen; Shane Legg; Volodymyr Mnih; Koray Kavukcuoglu; David Silver

초록
우리는 딥 강화학습을 위한 첫 번째 대규모 분산 아키텍처를 제시합니다. 이 아키텍처는 네 가지 주요 구성 요소를 사용합니다: 새로운 행동을 생성하는 병렬 액터; 저장된 경험으로부터 학습되는 병렬 러너; 가치 함수 또는 행동 정책을 표현하기 위한 분산 신경망; 그리고 경험의 분산 저장소입니다. 우리는 이 아키텍처를 사용하여 딥 Q-네트워크 알고리즘 (Deep Q-Network, DQN)을 구현했습니다. 우리의 분산 알고리즘은 동일한 하이퍼파라미터를 사용하여 Arcade Learning Environment의 Atari 2600 게임 49개에 적용되었습니다. 우리의 성능은 49개 게임 중 41개에서 비분산 DQN을 초월하였으며, 대부분의 게임에서 이러한 결과를 달성하는 데 필요한 벽 시계 시간(wall-time)을 한 자릿수로 줄였습니다.