2달 전
딥 강화학습을 이용한 아타리 게임 플레이
Volodymyr Mnih; Koray Kavukcuoglu; David Silver; Alex Graves; Ioannis Antonoglou; Daan Wierstra; Martin Riedmiller

초록
우리는 강화 학습을 사용하여 고차원 센서 입력으로부터 직접 제어 정책을 성공적으로 학습하는 첫 번째 딥 러닝 모델을 제시합니다. 이 모델은 원시 픽셀을 입력으로 받고 미래 보상을 추정하는 가치 함수를 출력하는 컨벌루션 신경망이며, Q-러닝의 변형 알고리즘으로 훈련되었습니다. 우리는 아케이드 학습 환경에서 7개의 Atari 2600 게임에 우리의 방법을 적용하였으며, 구조나 학습 알고리즘에 대한 조정 없이 진행하였습니다. 그 결과, 이 모델은 6개의 게임에서 모든 기존 접근 방식을 능가하였으며, 3개의 게임에서는 인간 전문가를 초월하는 성능을 보였습니다.