Qwen2.5-Math テクニカルレポート:自己改善を用いた数学専門モデルの構築へ

本報告では、数学専用の大規模言語モデルである Qwen2.5-Math および Qwen2.5-Math-Instruct-1.5B/7B/72B のシリーズを紹介する。Qwen2.5シリーズの核心的な革新点は、事前学習(pre-training)、微調整(post-training)、推論(inference)に至る一連のパイプライン全体に「自己改善(self-improvement)」の理念を統合することにある。具体的には以下の通りである。(1)事前学習段階では、Qwen2-Math-Instruct を用いて大規模かつ高品質な数学データを生成する。(2)微調整段階では、Qwen2-Math-Instruct から大規模なサンプリングを行い、報酬モデル(Reward Model, RM)を構築する。このRMは、教師付き微調整(Supervised Fine-Tuning, SFT)におけるデータの反復的進化に活用される。より強力なSFTモデルを構築することで、RMの反復的な訓練・更新が可能となり、その結果、次のSFTデータの反復プロセスをより効果的に導くことができる。最終的なSFTモデルに対しては、最終的なRMを用いて強化学習(Reinforcement Learning)を実施し、Qwen2.5-Math-Instruct を得る。(3)さらに、推論段階では、RMを用いてサンプリングをガイドすることで、モデルの性能を最適化する。Qwen2.5-Math-Instruct は中国語および英語の両方をサポートし、チェーン・オブ・シンキング(Chain-of-Thought, CoT)やツール統合推論(Tool-Integrated Reasoning, TIR)を含む高度な数学的推論能力を備えている。本モデルは、GSM8K、MATH、高考試題(GaoKao)、AMC23、AIME24 を含む10種類の数学データセット(英語および中国語)上で評価された。これらのデータセットは、小学校レベルから数学コンテスト問題まで、多様な難易度をカバーしている。