2달 전
깊은 강화 학습을 위한 비동기 방법
Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

초록
우리는 심층 강화 학습을 위한 개념적으로 간단하고 가벼운 프레임워크를 제안합니다. 이 프레임워크는 심층 신경망 컨트롤러의 최적화를 위해 비동기 경사 하강법을 사용합니다. 우리는 네 가지 표준 강화 학습 알고리즘의 비동기 변형을 소개하며, 병렬 액터-러너가 훈련 과정에 안정화 효과를 미쳐 네 가지 방법 모두 성공적으로 신경망 컨트롤러를 훈련시킬 수 있음을 보여줍니다. 가장 우수한 성능을 보이는 방법은 비동기 변형의 액터-크리틱으로, 단일 멀티코어 CPU에서 GPU 대신 절반의 시간으로 훈련하면서 아타리 도메인에서 현재 최고 수준을 넘어섭니다. 또한, 비동기 액터-크리틱이 다양한 연속 모터 제어 문제뿐만 아니라 시각 입력을 사용하여 랜덤 3D 미로 탐색이라는 새로운 작업에서도 성공함을 입증하였습니다.