Command Palette
Search for a command to run...
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
Runqi Qiao Qiuna Tan Peiqing Yang Yanzi Wang Xiaowan Wang et al
概要
マルチモーダル大規模言語モデル(MLLM)は、さまざまなタスクにおいて顕著な能力を示しているが、複雑な数学的推論においては依然として課題を抱えている。従来の研究は主にデータセットの構築や手法の最適化に注力しており、包括的な知識駆動型設計およびモデル中心のデータ空間モデリングという2つの重要な側面を軽視しがちである。本論文では、構造化された数学的知識システム、モデル中心のデータ空間モデリング、強化学習(RL)に基づく学習枠組みを統合した包括的なシステム「We-Math 2.0」を提案する。We-Math 2.0の主な貢献は以下の4点である。(1)MathBook知識システム:491の知識ポイントと1,819の基本原理を含む五段階階層型システムを構築した。(2)MathBook-StandardおよびMathBook-Pro:双方向拡張により広範な概念カバレッジと柔軟性を確保するMathBook-Standardを構築した。さらに、三次元の難易度空間を定義し、各問題に対して7つの段階的な変種を生成することで、難易度の段階的変化に対応可能な強化学習に適した難易度高いデータセット「MathBook-Pro」を構築した。(3)MathBook-RL:二段階型の強化学習フレームワークを提案した。第1段階は「コールドスタート微調整(Cold-Start Fine-tuning)」であり、知識指向の思考過程(chain-of-thought)推論にモデルを整合させる。第2段階は「段階的整合強化学習(Progressive Alignment RL)」であり、平均報酬学習と動的データスケジューリングを活用して、難易度レベルに応じた段階的な整合を実現した。(4)MathBookEval:491のすべての知識ポイントをカバーし、多様な推論ステップ分布を含む包括的なベンチマークを導入した。実験結果から、MathBook-RLは4つの広く用いられているベンチマークにおいて既存のベースラインと競合可能な性能を示し、MathBookEvalでは優れた結果を達成した。これにより、数学的推論における有望な汎化能力が示唆された。