17일 전

우선순위 가중 회귀: 간단하고 확장 가능한 비정책 강화 학습

Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine
우선순위 가중 회귀: 간단하고 확장 가능한 비정책 강화 학습
초록

이 논문에서는 표준적인 지도 학습 방법을 하위 절차로 활용하는 간단하고 확장 가능한 강화 학습 알고리즘을 개발하는 것을 목표로 한다. 우리의 목적은 단순하고 수렴성이 보장되는 최대 우도 손실 함수만을 사용하면서도, 비정책( off-policy ) 데이터를 효과적으로 활용할 수 있는 알고리즘을 설계하는 것이다. 제안하는 접근법인 이득 가중 회귀(Advantage-Weighted Regression, AWR)는 두 가지 표준 지도 학습 단계로 구성된다. 첫 번째는 가치 함수에 대한 타깃 값을 회귀하는 과정이며, 두 번째는 정책에 대한 가중 타깃 행동을 회귀하는 과정이다. 이 방법은 간단하고 일반적인 특성을 지니며, 연속적 및 이산적 행동 모두를 처리할 수 있으며, 표준 지도 학습 방법 위에서 몇 줄의 코드로 구현이 가능하다. AWR의 이론적 근거를 제시하고, 경험 재생(Experience Replay)을 통해 획득한 비정책 데이터를 통합할 경우의 성질을 분석한다. 또한 AWR을 표준 OpenAI Gym 벤치마크 작업들에 적용하여, 여러 잘 정립된 최첨단 강화 학습 알고리즘들과 경쟁 가능한 성능을 달성함을 보여준다. 특히, 추가적인 환경 상호작용 없이 순수한 정적 데이터셋에서 학습할 때, 대부분의 비정책 알고리즘보다 더 효과적인 정책을 학습할 수 있음을 확인하였다. 더불어, 매우 복잡한 시뮬레이션 캐릭터를 활용한 도전적인 연속 제어 과제에서도 본 알고리즘의 성능을 실험적으로 검증하였다.

우선순위 가중 회귀: 간단하고 확장 가능한 비정책 강화 학습 | 최신 연구 논문 | HyperAI초신경