Command Palette
Search for a command to run...
학습된 신뢰성을 가진 프로세스 보상
학습된 신뢰성을 가진 프로세스 보상
Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang
초록
프로세스 보상 모델(Process Reward Models, PRMs)은 추론 과정에 대한 단계별 피드백을 제공하지만, 현재의 PRMs는 일반적으로 각 단계에 대해 단일 보상 점수만 출력합니다. 따라서 하위 작업(downstream methods)은 불완전한 단계별 보상 예측을 신뢰할 수 있는 의사결정 신호로 처리해야 하며, 이러한 예측을 언제 신뢰해야 하는지에 대한 지표가 부재합니다. 본 논문에서는 단계별 성공 확률과 해당 예측의 신뢰도를 모두 예측하는 분포형 PRM인 BetaPRM을 제안합니다. 몬테카를로 연속 실행(Monte Carlo continuations)으로부터 얻은 단계별 성공 감독 신호를 바탕으로, BetaPRM은 유한 표본 성공 비율을 점 목표값으로 회귀하는 대신, 베타-이항(Beta-Binomial) 우도를 통해 관측된 성공적인 연속 실행의 수를 설명하는 베타(Beta) 신념(Belief)을 학습합니다. 이렇게 학습된 신뢰도 신호는 단계별 보상을 언제 신뢰해야 하는지를 나타내며, 하위 응용 분야에서 신뢰할 수 있는 보상과 불확실한 보상을 구분할 수 있게 합니다. 하나의 응용 사례로서, 우리는 PRM 가이드 방식의 Best-of-N 추론을 위한 적응형 계산 할당(Adaptive Computation Allocation, ACA)을 도입합니다. ACA는 학습된 신뢰도 신호를 활용하여, 높은 보상을 가진 솔루션이 신뢰할 수 있을 때는 추론을 중단하고, 불확실한 후보 접두사(candidate prefixes)에 추가적인 계산을 할당합니다. 네 가지 백본(backbone)과 네 가지 추론 벤치마크에 대한 실험 결과는 BetaPRM이 표준적인 단계별 오류 감지를 유지하면서 PRM 가이드 방식의 Best-of-N 선택 성능을 향상시킨다는 것을 보여줍니다. 이 신호를 기반으로 한 ACA는 고정 예산(Fixed-budget) Best-of-16 대비 정확도-토큰(tradeoff) 관계를 개선하여, 최종 정답 정확도를 향상시키면서도 토큰 사용량을 최대 33.57%까지 절감합니다.