
초록
본 논문에서는 강화 학습(RL)에서 탐색을 위한 간단한 접근법을 소개합니다. 이 접근법은 표 형식(tabular case)의 경우 이론적으로 정당화된 알고리즘을 개발할 수 있게 해주지만, 함수 근사(function approximation)가 필요한 환경에서도 확장 가능합니다. 우리의 접근법은 후속 표현(successor representation, SR)에 기반하여 제시되며, 이는 원래 후속 상태들의 유사성을 통해 상태 일반화를 정의하는 표현으로 소개되었습니다. 여기서 우리는 SR의 노름(norm)이 학습되는 동안 탐색을 유도하기 위한 보상 보너스(reward bonus)로 사용될 수 있음을 보여줍니다. SR의 노름의 이러한 일시적인 행동을 더 잘 이해하기 위해 부분확률적 후속 표현(substochastic successor representation, SSR)을 도입하고, 이가 각 상태(또는 특성)가 관찰된 횟수를 암묵적으로 세어준다는 것을 증명합니다. 이 결과를 바탕으로 일부 이론적으로 샘플 효율성이 뛰어난 접근법과 동등한 성능을 내는 알고리즘을 제안합니다. 마지막으로, 이러한 아이디어들을 딥 RL 알고리즘에 확장하여 Atari 2600 게임에서 샘플 복잡도가 낮은 상황에서 최고 수준의 성능을 달성함을 보여줍니다.