13일 전
Agent57: 아타리 인간 기준을 초월하다
Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell

초록
지난 10년간 아타리 게임은 강화학습(RL) 분야에서 오랫동안 표준 벤치마크로 활용되어 왔다. 이 벤치마크는 RL 알고리즘의 일반적 능력을 평가하기 위해 제안되었다. 기존 연구들은 이 세트의 다수 게임에서 뛰어난 성능을 기록함으로써 평균 성능을 높였지만, 가장 도전적인 몇몇 게임에서는 매우 낮은 성능을 보였다. 우리는 57개 모든 아타리 게임에서 표준 인간 수준을 초월하는 최초의 딥 강화학습 에이전트인 Agent57을 제안한다. 이러한 성과를 달성하기 위해, 매우 탐색적인 정책부터 순수한 탐사적 정책에 이르는 정책의 가족을 파라미터화하는 신경망을 훈련시켰다. 또한, 훈련 과정 전반에 걸쳐 어떤 정책을 우선시할지를 적응적으로 결정하는 메커니즘을 제안한다. 더불어, 보다 일관되고 안정적인 학습을 가능하게 하는 새로운 아키텍처 파라미터화 방식을 도입하였다.