Command Palette
Search for a command to run...
Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

초록
정책 기반 강화학습은 현재 수학적 추론 과제에서 LLM의 성능을 향상시키는 데 중요한 역할을 하고 있다. 그러나 기존의 롤아웃 기반 강화학습 방법(예: GRPO, DAPO, GSPO 등)은 서로 다른 난이도 수준의 샘플에 대한 LLM의 학습 능력을 명시적으로 고려하지 못하며, 이는 수학적 추론 과제를 쉬운 것부터 어려운 것으로 나아가는 인간의 인지 과정과 정반대이다. 직관적으로, 우리는 강화학습에서 롤아웃 그룹의 보상 분산이 LLM이 현재 샘플을 얼마나 어려워하는지의 정도를 부분적으로 반영함을 발견하였다. 너무 쉬운 또는 너무 어려운 샘플은 낮은 분산을 가지며, 중간 정도의 난이도를 가진 샘플일수록 더 높은 분산을 보인다. 이러한 관찰을 바탕으로, 그룹 보상의 분산을 기반으로 학습 샘플의 난이도를 동적으로 조절하는 커리큘럼 강화학습 프레임워크인 VCRL을 제안한다. 다섯 개의 수학적 벤치마크와 두 가지 모델을 대상으로 수행한 실험을 통해, VCRL이 현재의 LLM 강화학습 기준 모델들에 비해 우수한 성능을 보임을 확인하였다.