2달 전

Deep Reinforcement Learning을 위한 Dueling 네트워크 아키텍처

Ziyu Wang; Tom Schaul; Matteo Hessel; Hado van Hasselt; Marc Lanctot; Nando de Freitas
Deep Reinforcement Learning을 위한 Dueling 네트워크 아키텍처
초록

최근 몇 년간 강화학습에서 딥 리프레젠테이션의 활용에 많은 성공 사례가 보고되었습니다. 그러나 이러한 응용 프로그램들 중 많은 부분은 컨볼루션 네트워크, LSTM(장단기 메모리), 또는 오토인코더와 같은 전통적인 아키텍처를 사용하고 있습니다. 본 논문에서는 모델 자유형 강화학습을 위한 새로운 신경망 아키텍처를 제시합니다. 우리의 듀얼링 네트워크는 상태 가치 함수와 상태 종속 행동 이점 함수를 각각 추정하는 두 개의 별도 추정기를 표현합니다. 이 분리의 주요 장점은 기저 강화학습 알고리즘에 어떠한 변경도 가하지 않고 행동 간 학습을 일반화할 수 있다는 점입니다. 우리의 결과는 이 아키텍처가 유사한 가치를 가진 많은 행동이 있는 상황에서 더 나은 정책 평가를 수행함을 보여줍니다. 또한, 듀얼링 아키텍처는 우리의 RL 에이전트가 Atari 2600 도메인에서 최신 기술을 능가하도록 만드는 역할을 합니다.