11일 전

단계별로 검증해 봅시다

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
단계별로 검증해 봅시다
초록

최근 몇 년 동안 대규모 언어 모델은 복잡한 다단계 추론을 수행하는 능력에서 크게 향상되었다. 그러나 최첨단 모델조차도 여전히 논리적 오류를 자주 범한다. 더 신뢰할 수 있는 모델을 훈련하기 위해, 최종 결과에 대한 피드백을 제공하는 ‘결과 감독(outcome supervision)’ 방식 또는 각 중간 추론 단계에 대한 피드백을 제공하는 ‘과정 감독(process supervision)’ 방식 중 하나를 선택할 수 있다. 신뢰할 수 있는 모델 훈련의 중요성과 인간 피드백의 높은 비용을 고려할 때, 두 방법을 신중히 비교하는 것이 필수적이다. 최근 연구는 이미 이러한 비교를 시작했지만, 여전히 많은 질문들이 남아 있다. 본 연구에서는 자체적으로 조사를 수행하여, 어려운 MATH 데이터셋의 문제를 해결하도록 모델을 훈련시키는 데 있어 과정 감독이 결과 감독보다 훨씬 우수함을 확인했다. 우리의 과정 감독 모델은 MATH 테스트 세트의 대표적 하위 집합에서 78%의 문제를 정확히 해결하였다. 또한, 능동 학습(active learning)이 과정 감독의 효율성을 크게 향상시킴을 보였다. 관련 연구를 지원하기 위해, 최고의 보상 모델을 훈련하는 데 사용된 80만 개의 단계 수준 인간 피드백 레이블을 포함한 전체 데이터셋인 PRM800K도 공개한다.

단계별로 검증해 봅시다 | 최신 연구 논문 | HyperAI초신경