Command Palette
Search for a command to run...

要約
rStar2-Agent を紹介します。これは、エージェント型強化学習(agentic reinforcement learning)により訓練された140億パラメータ(14B)の数学推論モデルであり、最先端の性能を達成しています。現在の長文チェーン・オブ・トゥークン(long CoT)をはるかに超える形で、本モデルはPythonコードツールを用いる前に慎重に思考し、コード実行のフィードバックをもとに自ら中間ステップを探索・検証・改善するといった高度な認知行動を示しています。この能力は、スケールに適したエージェント型強化学習を実現するための3つの重要な革新によって可能となっています。(i) 高効率な強化学習(RL)インフラ。信頼性の高いPythonコード実行環境を備え、高スループットな実行を可能にし、ロールアウトコストを低減。これにより、限られたGPUリソース(64台のMI300X GPU)でも効果的な訓練が実現可能。(ii) GRPO-RoC:正解時に再サンプリングを行う「Resample-on-Correct」ロールアウト戦略を採用したエージェント型RLアルゴリズム。コードツールに起因する固有の環境ノイズに対処し、コード環境下でのより効果的な推論を可能に。(iii) 高効率なエージェント訓練手法:非推論型のSFT(Supervised Fine-Tuning)から開始し、複数段階の強化学習を経て、最小限の計算コストで高度な認知能力を獲得。以上の工夫により、rStar2-Agentは、1週間の期間内でわずか510ステップの強化学習により、事前学習済みの14Bモデルを最先端レベルまで向上させました。AIME24では平均pass@1スコア80.6%、AIME25では69.8%を達成し、パラメータ数671BのDeepSeek-R1を上回る性能を発揮しつつ、応答長も大幅に短縮しています。数学以外の領域においても、rStar2-Agent-14Bは、整合性(alignment)、科学的推論、エージェント型ツール利用タスクなどにおいて優れた汎化能力を示しています。コードおよび訓練手法の詳細は、以下のGitHubリポジトリで公開されています:https://github.com/microsoft/rStar