2달 전
행동 간격 증가: 강화 학습을 위한 새로운 연산자
Marc G. Bellemare; Georg Ostrovski; Arthur Guez; Philip S. Thomas; Rémi Munos

초록
본 논문은 Q-함수에 대한 새로운 최적성 보존 연산자를 소개합니다. 먼저, 표 형식 표현을 위한 연산자인 일관된 벨만 연산자(consistent Bellman operator)를 설명합니다. 이 연산자는 국소 정책 일관성(local policy consistency)의 개념을 통합합니다. 우리는 이러한 국소 일관성이 각 상태에서 행동 간극(action gap)을 증가시킨다는 것을 보여주며, 이 간극 증가는 근사 오류와 추정 오류가 유도된 탐욕 정책(greedy policies)에 미치는 부적절한 영향을 완화한다고 주장합니다. 이 연산자는 또한 이산화된 연속 공간 및 시간 문제에도 적용될 수 있으며, 이 맥락에서 우수한 성능을 입증하는 경험적 결과를 제공합니다.국소 일관성 연산자의 아이디어를 확장하여, 우리는 최적성을 보존하기 위한 충분 조건을 도출합니다. 이를 통해 일관된 벨만 연산자를 포함하는 여러 가지 연산자 가족(family of operators)을 제시합니다. 부록으로서 Baird의 장점 학습 알고리즘(advantage learning algorithm)의 최적성을 증명하고, 흥미로운 특성을 가진 다른 간극 증가 연산자들을 도출합니다. 마지막으로, 60개의 Atari 2600 게임에 대한 경험적 연구를 통해 이러한 새로운 연산자들의 강력한 잠재력을 설명합니다.