2달 전

Actor-Critic 방법에서의 함수 근사 오차 해결

Scott Fujimoto; Herke van Hoof; David Meger
Actor-Critic 방법에서의 함수 근사 오차 해결
초록

가치 기반 강화학습 방법 중 딥 Q-러닝과 같은 알고리즘에서 함수 근사 오류는 과대평가된 가치 추정치와 비최적 정책을 초래할 것으로 알려져 있습니다. 본 연구에서는 이 문제가 액터-크리틱 설정에서도 지속됨을 보이고, 이를 줄이기 위한 새로운 메커니즘을 제안합니다. 우리의 알고리즘은 두 개의 크리틱 사이에서 최소값을 취하는 방식으로 과대평가를 제한하는 더블 Q-러닝에 기반합니다. 또한 타겟 네트워크와 과대평가 편향 간의 관계를 설명하며, 각 업데이트당 오류를 줄이고 성능을 더욱 향상시키기 위해 정책 업데이트를 지연시킬 것을 제안합니다. 우리는 OpenAI Gym 작업 모음에서 우리의 방법을 평가하였으며, 모든 테스트 환경에서 기존 최신 기술보다 우수한 성능을 보였습니다.

Actor-Critic 방법에서의 함수 근사 오차 해결 | 최신 연구 논문 | HyperAI초신경