s1: 간단한 테스트 시간 스케일링

테스트 시간 스케일링은 언어 모델링에서 성능을 향상시키기 위해 추가적인 테스트 시간 컴퓨팅을 활용하는 유망한 새로운 접근 방식입니다. 최근에 오픈AI의 o1 모델이 이 기능을 보여주었지만, 그 방법론을 공개하지 않았습니다. 이로 인해 많은 재현 시도가 이루어졌습니다. 우리는 테스트 시간 스케일링과 강력한 추론 성능을 달성하기 위한 가장 간단한 접근 방식을 찾고자 합니다.첫째, 우리는 난이도, 다양성, 그리고 품질이라는 세 가지 기준을 통해 검증된 1,000개의 질문과 추론 경로를 짝지어 구성한 작은 데이터셋 s1K를 작성했습니다. 둘째, 우리는 예산 강제(Budget Forcing)라는 방법을 개발하여 모델의 사고 과정을 강제로 종료하거나 "Wait"를 여러 번 추가하여 모델의 생성 과정을 연장함으로써 테스트 시간 컴퓨팅을 제어할 수 있습니다. 이는 모델이 답변을 다시 확인하고 종종 잘못된 추론 단계를 수정하도록 이끌 수 있습니다.s1K 데이터셋에서 감독 학습으로 미세 조정(finetuning)된 Qwen2.5-32B-Instruct 언어 모델에 예산 강제를 적용한 후, 우리의 모델 s1은 경쟁 수학 문제(MATH와 AIME24)에서 o1-preview보다 최대 27% 높은 성능을 보였습니다. 또한, 예산 강제를 사용하여 s1의 성능을 확장하면 테스트 시간 중재 없이 성능을 초월할 수 있었습니다: AIME24에서 50%에서 57%까지 향상되었습니다.우리의 모델, 데이터 및 코드는 오픈 소스로 https://github.com/simplescaling/s1 에서 제공됩니다.