11일 전
Math-Shepherd: 인간의 주석 없이 LLM의 단계별 검증 및 강화
Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui

초록
이 논문에서는 수학 문제 해결 과정의 각 단계에 보상 점수를 부여하는 혁신적인 프로세스 지향 수학 보상 모델인 \textbf{Math-Shepherd}를 제안한다. Math-Shepherd의 학습은 수동 주석에 대한 과도한 의존성을 극복하기 위해 자동으로 생성된 단계별 감독 데이터를 활용하여 수행된다. 본 연구에서는 Math-Shepherd의 효과성을 두 가지 시나리오에서 탐구한다: 1) \textit{검증(Verification)}: 대규모 언어 모델(Large Language Models, LLMs)이 생성한 다수의 출력을 재정렬하는 데 Math-Shepherd를 활용한다; 2) \textit{강화 학습(Reinforcement Learning)}: Math-Shepherd를 사용하여 단계별로 진행되는 Proximal Policy Optimization (PPO)를 통해 LLMs를 강화한다. Math-Shepherd를 도입함으로써, 다양한 오픈소스 LLM들이 뛰어난 성능을 보였다. 예를 들어, Math-Shepherd를 활용한 단계별 PPO는 Mistral-7B의 정확도를 GSM8K에서 77.9\%에서 84.1\%로, MATH에서는 28.6\%에서 33.0\%로 향상시켰다. 또한 Math-Shepherd의 검증 기능을 추가하면, GSM8K와 MATH에서 각각 89.1\%와 43.5\%까지 정확도를 높일 수 있었다. 우리는 자동 프로세스 감독이 향후 LLM의 발전에 중요한 잠재력을 지닌다고 믿는다.