2달 전

진화 전략: 강화 학습의 대안으로서의 확장성

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever
진화 전략: 강화 학습의 대안으로서의 확장성
초록

우리는 Evolution Strategies (ES)라는 검은 상자 최적화 알고리즘의 한 유형을 Q-learning 및 Policy Gradients와 같은 인기 있는 MDP 기반 강화학습(RL) 기술의 대안으로 탐구합니다. MuJoCo와 Atari에서 수행한 실험 결과, ES는 사용 가능한 CPU 수에 따라 매우 잘 확장되는 실현 가능한 해결 전략임이 확인되었습니다. 공통 랜덤 숫자를 기반으로 하는 새로운 통신 전략을 통해 우리의 ES 구현은 스칼라만을 통신할 필요가 있어 1,000개 이상의 병렬 작업자로 확장할 수 있습니다. 이로 인해 3D 인간형 보행 문제를 10분 만에 해결하고, 1시간의 학습 후 대부분의 Atari 게임에서 경쟁력 있는 결과를 얻을 수 있었습니다. 또한, 우리는 ES가 검은 상자 최적화 기법으로서 다음과 같은 여러 장점을 강조합니다: 행동 빈도와 지연된 보상에 대해 불변이며, 극히 긴 시간 범위를 용인하며, 시간 할인 또는 가치 함수 근사가 필요하지 않습니다.