11일 전

Qwen2.5-Math 기술 보고서: 자기 개선을 통한 수학 전문 모델 구현으로 towards

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang
Qwen2.5-Math 기술 보고서: 자기 개선을 통한 수학 전문 모델 구현으로 towards
초록

이 보고서에서는 수학 전용 대규모 언어 모델 시리즈인 Qwen2.5-Math 및 Qwen2.5-Math-Instruct-1.5B/7B/72B을 소개합니다. Qwen2.5 시리즈의 핵심 혁신은 사전 훈련, 후속 훈련, 추론에 이르기까지 전 과정에 걸쳐 자기 개선 철학을 통합한 점에 있습니다. (1) 사전 훈련 단계에서는 Qwen2-Math-Instruct를 활용하여 대규모이고 고품질의 수학 데이터를 생성합니다. (2) 후속 훈련 단계에서는 Qwen2-Math-Instruct에서 대량의 샘플링을 통해 보상 모델(RM)을 개발합니다. 이 RM은 지도형 미세조정(SFT) 과정에서 데이터의 반복적 진화에 활용됩니다. 강화된 SFT 모델을 통해 RM을 반복적으로 훈련하고 업데이트할 수 있으며, 이는 다음 라운드의 SFT 데이터 반복을 안내하는 데 기여합니다. 최종 SFT 모델에 대해 최종 RM을 사용하여 강화 학습을 수행함으로써 Qwen2.5-Math-Instruct 모델이 도출됩니다. (3) 또한 추론 단계에서는 RM을 사용해 샘플링을 안내함으로써 모델의 성능을 최적화합니다.Qwen2.5-Math-Instruct는 중국어와 영어를 모두 지원하며, 체인 오브 써포트(Chain-of-Thought, CoT) 및 도구 통합 추론(Tool-Integrated Reasoning, TIR)을 포함한 고급 수학적 추론 능력을 갖추고 있습니다. 본 연구에서는 영문 및 중문 모두에서 10개의 수학 데이터셋(GSM8K, MATH, 고고, AMC23, AIME24 등)을 대상으로 모델을 평가하였으며, 초등학교 수준부터 수학 경시대회 문제에 이르기까지 다양한 난이도를 커버합니다.

Qwen2.5-Math 기술 보고서: 자기 개선을 통한 수학 전문 모델 구현으로 towards | 최신 연구 논문 | HyperAI초신경