2달 전

특성 공간에서의 카운트 기반 탐색을 이용한 강화 학습

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter
특성 공간에서의 카운트 기반 탐색을 이용한 강화 학습
초록

고차원 상태-행동 공간에서 실행 가능한 새로운 카운트 기반의 낙관적 탐사 알고리즘을 소개합니다. 이 영역에서 강화학습(RL) 알고리즘의 성공은 제한된 훈련 경험으로부터 일반화하는 데 크게 의존합니다. 함수 근사 기법은 RL 에이전트가 방문하지 않은 상태의 가치를 추정하기 위해 일반화를 가능하게 하지만, 현재 불확실성에 대한 일반화를 가능하게 하는 방법은 거의 없습니다. 이는 확장성이 뛰어난 RL 알고리즘과 에이전트가 불확실성을 줄이는 방향으로 움직이는 효율적인 탐사 전략을 결합하는 것을 방해해 왔습니다. 우리는 일반화된 상태 방문 횟수를 계산하는 새로운 방법을 제시합니다. 이 방법은 에이전트가 어떤 상태와 관련된 불확실성을 추정할 수 있도록 합니다. 우리의 ϕ-유사카운트(ϕ-pseudocount)는 가치 함수 근사를 위해 사용되는 상태 공간의 동일한 특징 표현을 활용하여 일반화를 달성합니다. 덜 자주 관찰된 특징을 가진 상태는 더 불확실하다고 간주됩니다. ϕ-탐사보너스(ϕ-Exploration-Bonus) 알고리즘은 변환되지 않은 상태 공간 대신 특징 공간에서 탐사를 수행하는 에이전트에게 보상을 제공합니다. 이 방법은 일부 이전 제안보다 단순하고 계산 비용이 적으며, 고차원 RL 벤치마크에서 준 최신 수준의 결과를 달성합니다.