탐사: 딥 강화학습을 위한 카운트 기반 탐사 연구

카운트 기반 탐색 알고리즘은 작은 이산 마르코프 결정 과정(MDP)을 해결하기 위해 표 형식 강화 학습(RL) 방법과 함께 사용될 때 근접 최적의 성능을 보이는 것으로 알려져 있습니다. 일반적으로 카운트 기반 방법은 대부분의 상태가 한 번만 발생하기 때문에 고차원 상태 공간에는 적용할 수 없다고 생각되었습니다. 최근의 딥 RL 탐색 전략들은 복잡한 휴리스틱을 통해 고차원 연속 상태 공간에서 대처할 수 있으며, 종종 불확실성에 대한 낙관주의나 내재 동기부여에 의존합니다. 본 연구에서는 놀라운 발견을 설명합니다: 클래식 카운트 기반 접근 방식의 간단한 일반화가 다양한 고차원 및/또는 연속 딥 RL 벤치마크에서 근접 최신 수준의 성능을 달성할 수 있다는 것입니다. 상태는 해시 코드로 매핑되며, 이를 통해 해시 테이블에서 상태의 발생 횟수를 세어 계산할 수 있습니다. 이러한 카운트는 클래식 카운트 기반 탐색 이론에 따라 보상 보너스를 계산하는 데 사용됩니다. 우리는 단순한 해시 함수가 많은 어려운 작업에서 놀랍게도 좋은 결과를 얻을 수 있음을 발견했습니다. 또한, 도메인에 따라 학습된 해시 코드가 이러한 결과를 더욱 개선할 수 있음을 보였습니다. 상세 분석을 통해 좋은 해시 함수의 중요한 측면들을 밝혔습니다: 1) 적절한 입자도(granularity)를 갖추고 2) MDP를 해결하는 데 관련된 정보를 인코딩합니다. 이 탐색 전략은 연속 제어 작업과 아타리 2600 게임 모두에서 근접 최신 수준의 성능을 달성하며, 따라서 상당한 탐색이 필요한 MDP를 해결하기 위한 간단하면서도 강력한 기준(baseline)을 제공합니다.