11日前

Qwen2.5-Math テクニカルレポート:自己改善を用いた数学専門モデルの構築へ

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang
Qwen2.5-Math テクニカルレポート:自己改善を用いた数学専門モデルの構築へ
要約

本報告では、数学専用の大規模言語モデルである Qwen2.5-Math および Qwen2.5-Math-Instruct-1.5B/7B/72B のシリーズを紹介する。Qwen2.5シリーズの核心的な革新点は、事前学習(pre-training)、微調整(post-training)、推論(inference)に至る一連のパイプライン全体に「自己改善(self-improvement)」の理念を統合することにある。具体的には以下の通りである。(1)事前学習段階では、Qwen2-Math-Instruct を用いて大規模かつ高品質な数学データを生成する。(2)微調整段階では、Qwen2-Math-Instruct から大規模なサンプリングを行い、報酬モデル(Reward Model, RM)を構築する。このRMは、教師付き微調整(Supervised Fine-Tuning, SFT)におけるデータの反復的進化に活用される。より強力なSFTモデルを構築することで、RMの反復的な訓練・更新が可能となり、その結果、次のSFTデータの反復プロセスをより効果的に導くことができる。最終的なSFTモデルに対しては、最終的なRMを用いて強化学習(Reinforcement Learning)を実施し、Qwen2.5-Math-Instruct を得る。(3)さらに、推論段階では、RMを用いてサンプリングをガイドすることで、モデルの性能を最適化する。Qwen2.5-Math-Instruct は中国語および英語の両方をサポートし、チェーン・オブ・シンキング(Chain-of-Thought, CoT)やツール統合推論(Tool-Integrated Reasoning, TIR)を含む高度な数学的推論能力を備えている。本モデルは、GSM8K、MATH、高考試題(GaoKao)、AMC23、AIME24 を含む10種類の数学データセット(英語および中国語)上で評価された。これらのデータセットは、小学校レベルから数学コンテスト問題まで、多様な難易度をカバーしている。

Qwen2.5-Math テクニカルレポート:自己改善を用いた数学専門モデルの構築へ | 最新論文 | HyperAI超神経