ReasonFlux-PRM, 새로운 추론 모델 평가 방식 소개
ReasonFlux-PRM: 경로 인식 보상 모델로 LLM의 사슬적 추론을 강화하다 대형 언어 모델(Large Language Models, LLMs)은 수학과 과학적 추론 등 복잡한 작업을 해결하기 위해 구조화된 사슬적 추론(chain-of-thought) 접근법을 사용하고 있다. 이러한 모델들은 단순히 답을 도출하는 것이 아니라, 논리적 사고 과정을 시뮬레이트하는 중간 단계를 거친다. 이 기술은 추론 정확도를 향상시키고 오류 추적을 명확하게 하는 역할을 한다. 하지만 모델이 점점 더 진보하면서, 최종 답변뿐 아니라 그 추론 과정까지 평가하는 것이 중요해졌다. 전통적인 PRMs의 추론 평가 한계 현재 대부분의 보상 모델(Reward Models, PRMs)은 최종 답변만 평가하고, 그 결론이 어떻게 도출되었는지는 무시한다. 그러나 Deepseek-R1 같은 최첨단 모델들은 최종 답변을 제공하기 전에 긴 추론 경로를 출력한다. 이러한 경로-응답 쌍은 작은 모델의 훈련에 재사용되지만, 현재 PRMs은 이러한 전체 경로를 평가하도록 설계되지 않았다. 이 불일치는 신뢰성 있는 감독을 방해하여, 경로-응답 데이터로 훈련된 작은 모델의 성능이 저하될 수 있다. 비구조화된 추론 사슬 처리의 어려움 전통적인 PRMs은 구조적이고 깨끗한 출력에 주로 맞춰져 있으며, 고급 LLMs에서 생성되는 긴 비구조화된 추론 사슬을 처리하는 능력이 제한적이다. 예를 들어, Qwen2.5-Math-PRM-72B와 같은 고급 PRMs은 고급과 저질 중간 추론 사이를 구분하는 능력이 부족하다. Gemini나 Deepseek-R1에서 출력된 경로-응답에 적용할 때 이러한 모델들은 겹치는 보상 점수를 자주 생성해, 추론 품질을 세밀하게 이해하지 못한다. 이를 통해 선택된 데이터는 하류 미세 조정에 적합하지 않으며, 실험 결과 이러한 데이터로 훈련된 모델들은 인간이 큐레이팅한 데이터로 훈련된 모델보다 성능이 낮았다. ReasonFlux-PRM의 소개: 경로 수준의 감독 일리노이 주립대학교 어바나-섐페인 캠퍼스(UIUC), 프린스턴 대학교, 코넬 대학교, 바이트댄스 시드 연구팀은 ReasonFlux-PRM을 소개했다. 이 모델은 최종 답변뿐만 아니라 중간 추론 단계까지 평가하는 경로 인식 모델로, 단계별 및 경로별 점수를 통합하여 추론 품질을 더 세밀하게 이해할 수 있다. ReasonFlux-PRM은 10,000개 샘플로 구성된 수학과 과학 문제 데이터셋을 사용하여 훈련되었다. 이 데이터셋은 실제 경로-응답 형식을 반영하도록 설계되었다. ReasonFlux-PRM의 기술적 프레임워크 기술적으로, ReasonFlux-PRM은 각 중간 단계가 최종 답변에 얼마나 기여했는지를 점수화하여 작동한다. 모델은 프롬프트, 이전 추론 단계, 최종 출력을 고려하여 단계별 점수를 할당하고, 이를 종합하여 전체 경로 보상을 계산한다. 이 모델은 고품질 훈련 데이터의 오프라인 필터링, GRPO 기반의 강화 학습 시 밀집된 보상 제공, 추론 품질을 개선하기 위한 Best-of-N 테스트 시간 응답 선택 등 다양한 응용 분야를 지원한다. 이러한 기능으로 ReasonFlux-PRM은 이전 PRMs보다 더 유연하고 포괄적이다. 추론 벤치마크에서의 경험적 결과 AIME, MATH500, GPQA-Diamond 등의 작업에서 ReasonFlux-PRM-7B는 Qwen2.5-Math-PRM-72B와 인간이 큐레이팅한 데이터보다 여러 주요 메트릭에서 우수한 성능을 보였다. 특히, 감독된 미세 조정에서는 12.1%의 정확도 향상, 강화 학습에서는 4.5%의 개선, 테스트 시간 스케일링에서는 6.3%의 증가를 기록했다. ReasonFlux-PRM이 작은 모델임을 감안하면, 이 성능 향상은 상당히 의미가 크다. 표 1에 따르면, ReasonFlux-PRM이 선택한 데이터로 훈련된 Qwen2.5-14B-Instruct 모델은 인간이 큐레이팅한 기준선에 가깝거나 그 이상의 성능을 달성했다. 반면, 다른 PRMs은 일부 벤치마크에서 최대 26.6%의 성능 저하를 나타냈다. ReasonFlux-PRM의 영향과 미래 방향 이 연구는 현대 추론 모델의 훈련과 평가에 있어 중요한 제약을 해결한다. 생각 경로와 최종 답변 모두를 평가할 수 있도록 함으로써, ReasonFlux-PRM은 훈련 데이터의 품질과 모델 응답의 신뢰성을 향상시킨다. 이를 통해 대형 모델의 추론 과정을 체계적으로 평가하고 개선하는 새로운 방향을 제시한다. 산업 내부자의 평가와 회사 프로필 ReasonFlux-PRM은 추론 과정의 전반적인 품질을 개선하는 데 중요한 진전을 이루었다는 평가를 받고 있다. 이 모델의 개발은 LLM의 성능을 더욱 향상시키는 데 중요한 역할을 할 것으로 기대된다. 또한, 대규모 데이터셋을 활용한 훈련 방법은 향후 연구와 개발에 큰 영향을 미칠 것으로 보인다. UIUC, 프린스턴, 코넬 대학교, 바이트댄스 시드 연구팀은 이미 여러 중요한 연구를 수행해 왔으며, 이번 연구를 통해 또다시 혁신적인 기술을 선보였다. 이 연구에 대한 자세한 내용은 논문과 GitHub 페이지를 참고할 수 있다. 이 프로젝트의 연구자들에게 모든 공이 돌아가며, 트위터를 팔로우하거나 10만 명 이상의 ML SubReddit에 참여하고, 뉴스레터를 구독하는 것을 잊지 말기 바란다.