HyperAI초신경
4일 전

RLPR: 검증자 없이 일반 영역으로의 RLVR 외삽

Tianyu Yu, Bo Ji, Shouli Wang, Shu Yao, Zefan Wang, Ganqu Cui, Lifan Yuan, Ning Ding, Yuan Yao, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua
RLPR: 검증자 없이 일반 영역으로의 RLVR 외삽
초록

강화 학습을 통한 검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 대형 언어 모델(LLMs)의 추론 능력 향상에 유망한 잠재력을 보여주고 있습니다. 그러나 그 성공은 주로 수학적 및 코드 영역에 한정되어 있습니다. 이 주요 제한은 도메인 특화 검증기(domain-specific verifiers)에 대한 과도한 의존으로부터 비롯되며, 이는 금지적인 복잡성과 제한된 확장성을 초래합니다. 이러한 도전 과제를 해결하기 위해, 우리의 핵심 관찰은 LLM이 올바른 자유 형식 답변을 생성할 확률이 직접적으로 추론 보상(즉, 추론 과정이 올바른 답변으로 이끄는 정도)을 평가한다는 것입니다. 이 인사이트를 바탕으로, 우리는 RLVR을 더 넓은 일반 영역으로 확장하는 간단한 검증기 없는 프레임워크인 RLPR을 제안합니다. RLPR은 LLM 자체의 참조 답변에 대한 토큰 확률 점수를 보상 신호로 사용하고, 훈련 중 예상 보상을 최대화합니다. 우리는 이 노이즈가 많은 확률 보상의 높은 분산을 해결하는 것이 이를 작동시키는 데 중요한 역할을 한다는 것을 발견하였으며, LLM 내재 확률에서 정확하고 안정적인 보상을 얻기 위한 prob-to-reward 및 안정화 방법을 제안하였습니다. 네 가지 일반 영역 벤치마크와 세 가지 수학적 벤치마크에서 수행된 포괄적인 실험 결과, RLPR은 Gemma, Llama, Qwen 기반 모델 모두에서 두 영역에서 일관되게 추론 능력을 개선함을 확인하였습니다. 특히, RLPR은 TheoremQA에서 7.6점, Minerva에서 7.5점으로 동시대의 VeriFree를 앞섰으며, 일곱 가지 벤치마크에서 강력한 검증기 종속 접근 방식인 General-Reasoner보다 평균 1.6점 더 높았습니다.