2달 전

s1: 간단한 테스트 시간 스케일링

Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto

논문 세부 정보 보기

초록

테스트 시간 스케일링은 언어 모델링에서 성능을 향상시키기 위해 추가적인 테스트 시간 컴퓨팅을 활용하는 유망한 새로운 접근 방식입니다. 최근에 오픈AI의 o1 모델이 이 기능을 보여주었지만, 그 방법론을 공개하지 않았습니다. 이로 인해 많은 재현 시도가 이루어졌습니다. 우리는 테스트 시간 스케일링과 강력한 추론 성능을 달성하기 위한 가장 간단한 접근 방식을 찾고자 합니다.첫째, 우리는 난이도, 다양성, 그리고 품질이라는 세 가지 기준을 통해 검증된 1,000개의 질문과 추론 경로를 짝지어 구성한 작은 데이터셋 s1K를 작성했습니다. 둘째, 우리는 예산 강제(Budget Forcing)라는 방법을 개발하여 모델의 사고 과정을 강제로 종료하거나 "Wait"를 여러 번 추가하여 모델의 생성 과정을 연장함으로써 테스트 시간 컴퓨팅을 제어할 수 있습니다. 이는 모델이 답변을 다시 확인하고 종종 잘못된 추론 단계를 수정하도록 이끌 수 있습니다.s1K 데이터셋에서 감독 학습으로 미세 조정(finetuning)된 Qwen2.5-32B-Instruct 언어 모델에 예산 강제를 적용한 후, 우리의 모델 s1은 경쟁 수학 문제(MATH와 AIME24)에서 o1-preview보다 최대 27% 높은 성능을 보였습니다. 또한, 예산 강제를 사용하여 s1의 성능을 확장하면 테스트 시간 중재 없이 성능을 초월할 수 있었습니다: AIME24에서 50%에서 57%까지 향상되었습니다.우리의 모델, 데이터 및 코드는 오픈 소스로 https://github.com/simplescaling/s1 에서 제공됩니다.