수학적 추론에서 계획을 위한 결과 지도형 가치 모델(OVM, Outcome-supervised Value Models)

대규모 언어 모델(LLM)은 특히 수학적 추론과 같은 다단계 추론 과정에서 초기 단계의 오류가 후속 단계로 전파되어 최종적으로 잘못된 답변에 이르는 경우가 많아 정확성을 유지하는 데 어려움을 겪는다. 오류 전파를 줄이기 위해, 단계별로 모델의 추론을 안내하는 유도 디코딩(guided decoding) 기법이 활용된다. 본 연구에서는 유도 디코딩에서 단계별 정확성만 보장하는 것보다, 불완전한 추론 경로의 잠재적 가치를 평가하는 것이 더 유리하다고 주장한다. 왜냐하면 후자의 접근은 최종적으로 정확한 결론에 도달하는 방향으로 이끄는 데 기여하기 때문이다. 이는 계획 문제에서 $\textit{가치 추정(value estimation)}$ 문제로 문제를 재정의하는 것으로 이어진다.유도 디코딩에서 $\textit{결과에 대한 감독이 본질적으로 가치 모델(value model)의 역할을 수행한다}$는 발견에 착안하여, 본 연구는 결과에 기반한 감독을 활용해 가치 모델을 학습하는 새로운 모델인 결과 감독 가치 모델(Outcome-supervised Value Model, OVM)을 제안한다. OVM은 정확한 결론으로 이어지는 단계를 우선적으로 평가함으로써, 더 나은 추론 경로를 유도한다. 또한 OVM은 단계별 정확성에 대한 수작업 레이블링이 필요 없기 때문에, 레이블링의 부담을 크게 줄이고 모델의 확장성(스케일러빌리티)을 크게 향상시킨다. 두 가지 다단계 수학 추론 데이터셋인 GSM8K와 Game of 24에 대한 실험 결과에서 OVM 모델의 우수한 성능이 입증되었다. 특히 GSM8K에서 본 연구의 $\textbf{OVM-7B 모델은 13B 파라미터 이하의 LLM 중 최고 성능을 기록하며}$, GPT-4나 코드 실행 기능을 사용하지 않았음에도 불구하고 이 성과를 달성했다. 이러한 결과는 다단계 추론 작업을 위한 가치 모델 학습에서 결과 감독의 역할에 대한 새로운 통찰을 제공하며, 유도 디코딩에서의 가치 추정에 있어 그 우수성에 대한 이론적 근거를 제시한다.