2달 전
IMPALA: 중요도 가중 액터-러너 아키텍처를 사용한 확장 가능한 분산 딥-RL
Lasse Espeholt; Hubert Soyer; Remi Munos; Karen Simonyan; Volodymir Mnih; Tom Ward; Yotam Doron; Vlad Firoiu; Tim Harley; Iain Dunning; Shane Legg; Koray Kavukcuoglu

초록
본 연구에서는 단일 강화학습 에이전트와 단일 매개변수 집합을 사용하여 대규모의 작업들을 해결하는 것을 목표로 합니다. 주요 과제는 증가한 데이터 양과 연장된 학습 시간을 처리하는 것입니다. 우리는 단일 머신 학습에서 자원을 더욱 효율적으로 활용할 뿐만 아니라, 데이터 효율성이나 자원 활용성을 희생하지 않고 수천 개의 머신으로 확장할 수 있는 새로운 분산 에이전트 IMPALA (중요도 가중 액터-러너 아키텍처(Importance Weighted Actor-Learner Architecture))를 개발하였습니다. 우리는 V-trace라는 새로운 오프-폴리시 보정 방법을 결합하여 행동과 학습을 분리함으로써 고속 처리에서도 안정적인 학습을 달성하였습니다. DMLab-30 (DeepMind Lab 환경(Beattie et al., 2016)에서 제공되는 30개의 작업) 및 Atari-57 (Arcade Learning Environment(Bellemare et al., 2013a)에서 제공되는 모든 Atari 게임)에서 다중 작업 강화학습에 대한 IMPALA의 효과를 입증하였습니다. 결과는 IMPALA가 이전 에이전트들보다 적은 데이터로 더 나은 성능을 달성하며, 특히 다중 작업 접근 방식 덕분에 작업 간 긍정적인 전이 효과를 나타낸다는 것을 보여주고 있습니다.