Command Palette
Search for a command to run...

초록
테스트 시 scaling 과정에서 대규모 언어 모델(LLM)의 신뢰성은 일반적으로 정답 추론과 오류 있는 논리적 추론을 구분할 수 있는 외부 검증기 또는 보상 모델을 통해 평가된다. 기존 연구는 보통 중간 추론 단계마다 점수를 부여하는 프로세스 보상 모델(PRMs)이 최종 답변만 평가하는 결과 보상 모델(ORMs)보다 성능이 뛰어나다고 가정해왔다. 이러한 관점은 주로 좁은 범위의 수학적 관련 영역에서의 증거에 기반하고 있다. 본 연구는 14개의 다양한 영역에서 네 가지 보상 모델 변형—판별형 ORM과 PRM(\DisORM, \DisPRM), 생성형 ORM과 PRM(\GenORM, \GenPRM)—에 대한 최초의 통합 평가를 제시한다. 기존의 통념과는 달리, 우리는 (i) \DisORM이 \DisPRM과 유사한 성능을 보이며, (ii) \GenPRM는 경쟁력이 없으며, (iii) 전반적으로 \GenORM이 가장 견고하며, 모든 시험된 영역에서 유의미하고 일관된 성능 향상을 제공함을 발견했다. 이 결과는 PRM 방식의 단계별 점수 부여가 LLM의 자동 레이블링에서 유입된 레이블 노이즈를 계승하고, 특히 자기 수정 추론을 포함한 긴 추론 경로를 평가하는 데 어려움을 겪기 때문이라고 설명한다. 이론적 분석을 통해 우리는 단계별 집계가 추론 길이가 증가함에 따라 오류가 누적됨을 보였으며, 실증적 관찰을 통해 이 효과가 실제로 존재함을 확인했다. 이러한 발견은 세밀한 감독이 항상 더 나은 성능을 보장한다는 기존의 가정을 도전하며, 다영역 배포에 있어 생성형 결과 검증의 타당성을 뒷받침한다. 본 연구에서 사용한 코드, 데이터셋, 체크포인트는 공개적으로 GitHub 페이지(https://github.com/db-Lee/Multi-RM)를 통해 제공되며, 다영역 환경에서의 향후 연구를 지원하고자 한다.