Qwen2.5-Math 기술 보고서: 자기 개선을 통한 수학 전문 모델 구현으로 towards

이 보고서에서는 수학 전용 대규모 언어 모델 시리즈인 Qwen2.5-Math 및 Qwen2.5-Math-Instruct-1.5B/7B/72B을 소개합니다. Qwen2.5 시리즈의 핵심 혁신은 사전 훈련, 후속 훈련, 추론에 이르기까지 전 과정에 걸쳐 자기 개선 철학을 통합한 점에 있습니다. (1) 사전 훈련 단계에서는 Qwen2-Math-Instruct를 활용하여 대규모이고 고품질의 수학 데이터를 생성합니다. (2) 후속 훈련 단계에서는 Qwen2-Math-Instruct에서 대량의 샘플링을 통해 보상 모델(RM)을 개발합니다. 이 RM은 지도형 미세조정(SFT) 과정에서 데이터의 반복적 진화에 활용됩니다. 강화된 SFT 모델을 통해 RM을 반복적으로 훈련하고 업데이트할 수 있으며, 이는 다음 라운드의 SFT 데이터 반복을 안내하는 데 기여합니다. 최종 SFT 모델에 대해 최종 RM을 사용하여 강화 학습을 수행함으로써 Qwen2.5-Math-Instruct 모델이 도출됩니다. (3) 또한 추론 단계에서는 RM을 사용해 샘플링을 안내함으로써 모델의 성능을 최적화합니다.Qwen2.5-Math-Instruct는 중국어와 영어를 모두 지원하며, 체인 오브 써포트(Chain-of-Thought, CoT) 및 도구 통합 추론(Tool-Integrated Reasoning, TIR)을 포함한 고급 수학적 추론 능력을 갖추고 있습니다. 본 연구에서는 영문 및 중문 모두에서 10개의 수학 데이터셋(GSM8K, MATH, 고고, AMC23, AIME24 등)을 대상으로 모델을 평가하였으며, 초등학교 수준부터 수학 경시대회 문제에 이르기까지 다양한 난이도를 커버합니다.