17일 전

정책 외 Actor-Critic 알고리즘과 공유 경험 재생

Simon Schmitt, Matteo Hessel, Karen Simonyan
정책 외 Actor-Critic 알고리즘과 공유 경험 재생
초록

우리는 액터-크리틱 강화학습 알고리즘과 균일한 대규모 경험 재생(Experience Replay)의 조합을 탐구하고, 두 가지 주요 과제에 대한 해결 방안을 제시한다. 첫째, 경험 재생을 활용한 효율적인 액터-크리틱 학습이며, 둘째, 다른 에이전트의 행동을 학습하는 오프-폴리시(off-policy) 학습의 안정성 문제이다. 이러한 통찰을 바탕으로, 모든 참여 에이전트가 병렬로 실행되며 공통의 재생 모듈을 통해 경험을 공유하는 하이퍼파라미터 스윕을 가속화한다. 이를 위해 우리는 액터-크리틱 방법에 사용되는 중요도 샘플링의 한 형태인 V-trace의 편향-분산 트레이드오프를 분석한다. 분석 결과를 바탕으로, 재생 모듈에서 샘플링한 경험과 온-폴리시(on-policy) 경험을 혼합할 것을 주장하며, V-trace가 불안정해지는 데이터 분포에서도 효과적으로 확장 가능한 새로운 트러스트 영역(trust region) 기법을 제안한다. 제안된 솔루션에 대한 광범위한 실험적 검증을 제공하며, 2억 개의 환경 프레임까지 훈련된 에이전트를 대상으로 아타리(Atari) 게임에서 최신 기준을 넘는 데이터 효율성을 입증한다.