Command Palette
Search for a command to run...
Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

초록
비판 없이 작동하는 강화학습 방법, 특히 그룹 정책 기반 방법은 복잡한 과제에서 높은 효율성을 보이며 주목받고 있다. 그러나 이러한 방법들은 정책 내부에서 다수의 샘플링과 비교를 통해 보상 우위(advantage)를 추정하는 데 크게 의존하기 때문에, 정책이 국소 최적해에 빠지거나 계산 비용이 증가할 수 있다. 이러한 문제를 해결하기 위해, 보상 참조 기준과 데이터 사전 샘플링을 통한 강화학습 방법인 PVPO를 제안한다. 구체적으로, 사전에 참조 모델을 사용해 롤아웃을 수행하고, 계산된 보상 점수를 참조 기준(anchor)으로 활용한다. 본 방법은 그룹 내 비교에 의해 발생하는 누적 편향을 효과적으로 보정하며, 롤아웃 횟수에 대한 의존도를 크게 줄인다. 동시에 참조 모델은 사전 샘플링 과정에서 샘플의 난이도를 평가함으로써, 높은 성능 향상 효과를 기대할 수 있는 데이터를 효과적으로 선별할 수 있어 학습 효율을 향상시킨다. 두 도메인에 걸쳐 9개의 데이터셋에서 수행한 실험 결과, PVPO는 최신 기준(SOTA, State-of-the-Art) 성능을 달성함을 입증하였다. 본 방법은 다양한 과제에 걸쳐 뛰어난 일반화 능력을 보이며, 모델의 규모가 다른 다양한 크기의 모델에서도 확장 가능한 성능을 나타내어, 실용성과 유연성 모두를 갖춘 강화학습 프레임워크로 평가할 수 있다.