딥 강화 학습을 통한 인간 수준의 제어
강화학습 이론은 동물 행동에 대한 심리학적 및 신경과학적 관점과 깊이 연결되어 있으며, 에이전트가 환경을 최적의 방식으로 조절할 수 있는 규범적 설명을 제공한다. 그러나 현실 세계의 복잡성에 가까운 상황에서 강화학습을 성공적으로 활용하기 위해서는 에이전트가 고차원적인 감각 입력에서 환경에 대한 효율적인 표현을 도출하고, 이를 바탕으로 과거 경험을 새로운 상황에 일반화해야 하는 어려운 과제에 직면한다. 놀랍게도 인간과 기타 동물은 강화학습과 계층적인 감각 처리 시스템의 조화로운 결합을 통해 이 문제를 해결하는 것처럼 보이며, 도파민성 신경세포가 방출하는 펄스성 신호와 시간차 강화학습 알고리즘 간의 뚜렷한 유사성은 이러한 과정을 뒷받침하는 풍부한 신경학적 데이터에 의해 입증된다. 기존의 강화학습 에이전트는 유용한 특징을 수작업으로 설계할 수 있는 영역이나 완전히 관측 가능한 저차원 상태 공간을 가진 영역에 한해 성공을 거두어왔다. 본 연구에서는 최근의 심층 신경망 학습 기술을 활용하여, 고차원적인 감각 입력으로부터 직접 엔드투엔드 강화학습을 통해 성공적인 정책을 학습할 수 있는 새로운 인공 에이전트인 '딥 Q네트워크(Deep Q-Network)'를 개발하였다. 우리는 이 에이전트를 고전적인 아타리 2600 게임이라는 도전적인 영역에서 테스트하였다. 실험 결과, 딥 Q네트워크 에이전트는 픽셀과 게임 스코어만을 입력으로 받았음에도 불구하고, 이전의 모든 알고리즘을 능가하며, 동일한 알고리즘, 네트워크 아키텍처 및 하이퍼파라미터를 사용하여 49개 게임의 집합에서 전문 인간 게임 테스터 수준의 성능을 달성함을 입증하였다. 본 연구는 고차원적인 감각 입력과 행동 사이의 격차를 극복함으로써, 다양한 도전적인 과제에서 뛰어난 성과를 내는 데 성공한 최초의 인공 에이전트를 구현하였다.