HyperAI초신경
5일 전

ReasonFlux-PRM: 궤도 인식 PRM이 LLMs의 긴 사고 과정 추론을 위한 방법

Jiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang
ReasonFlux-PRM: 궤도 인식 PRM이 LLMs의 긴 사고 과정 추론을 위한 방법
초록

프로세스 보상 모델(Process Reward Models, PRMs)은 최근 대형 언어 모델(Large Language Models, LLMs)의 중간 추론 단계를 감독하기 위한 강력한 프레임워크로 부각되고 있습니다. 기존의 PRMs는 주로 모델의 최종 출력 응답에 대해 훈련되었으며, 특히 Deepseek-R1과 같은 최신 추론 모델이 생성하는 경로-응답 출력에서 중간 사고 경로를 견고하게 평가하는 데 어려움을 겪었습니다. 본 연구에서는 이러한 경로-응답 유형의 추론 경로를 평가하도록 특별히 설계된 새로운 경로 인식 PRM인 ReasonFlux-PRM을 소개합니다. ReasonFlux-PRM은 단계 수준과 경로 수준의 감독을 모두 통합하여 구조화된 사고 과정 데이터와 일치하는 세밀한 보상 할당을 가능하게 합니다. 우리는 ReasonFlux-PRM을 오프라인 및 온라인 설정에서 보상 감독을 지원하도록 적응시켰습니다. 이에는 (i) 하류 지도 학습을 위한 작은 모델들의 고품질 모델 디스틸레이션 데이터 선택, (ii) 강화 학습 중 정책 최적화를 위한 밀집된 과정 수준 보상 제공, 그리고 (iii) 보상 안내 Best-of-N 테스트 시간 확장을 포함합니다.AIME, MATH500, GPQA-Diamond 등 어려운 하류 벤치마크에서 실증 결과를 통해 ReasonFlux-PRM-7B가 강력한 PRMs(예: Qwen2.5-Math-PRM-72B)와 인간이 큐레이팅한 기준선보다 더 높은 품질의 데이터를 선택함을 확인할 수 있었습니다. 또한, 우리의 개발된 ReasonFlux-PRM-7B는 일관된 성능 향상을 가져오며, 지도 학습 미세 조정에서는 평균 12.1%, 강화 학습에서는 4.5%, 테스트 시간 확장에서는 6.3%의 성능 개선을 달성하였습니다. 우리는 또한 자원 제약이 있는 애플리케이션과 엣지 배포를 위해 효율적인 ReasonFlux-PRM-1.5B도 공개합니다.프로젝트: https://github.com/Gen-Verse/ReasonFlux