AIが自然言語とツール使用を統合し、数学問題解決を向上——DualDistillとAgentic-R1の新アプローチ
AIが数学の問題解決をより効率的かつ正確に実行するためには、自然言語の推論とツールの活用を組み合わせる手法が有効であると、カーネギーメロン大学の研究者らが提案した「DualDistill」と「Agentic-R1」の研究が注目を集めている。従来の長文推論(long-CoT)モデルは、反復的な自己検証と改善を通じて、数学的推論の分野で優れた性能を示してきた。しかし、オープンソースのlong-CoTモデルは自然言語による推論経路に依存しており、検証機構がないため計算コストが高く、誤りやすいという課題があった。 一方で、コードインタプリタを統合したフレームワーク「OpenHands」を活用したツール支援型の推論は、大規模な数値計算において効率的かつ信頼性が高いが、抽象的や概念的に複雑な問題には対応が難しいという課題があった。 カーネギーメロン大学の研究者らは、こうした課題を解決するため「DualDistill」という蒸留フレームワークを開発し、ツール支援型と自然言語推論型の教師モデルの知識を統合した「Agentic-R1」というモデルを構築した。このモデルは、問題の種類に応じて最適な戦略を選択する能力を持つ。算数やアルゴリズム的なタスクではコードを実行し、抽象的な問題では自然言語による推論を行う。このフレームワークは、教師モデルの推論経路を組み合わせて知識を抽出し、さらに自己蒸留を用いて学習を深める。 研究では、DeepMath-LやCombinatorics300といった複数のベンチマークでAgentic-R1を評価し、DeepSeek-R1-DistillやQwen-2.5-Instructといったベースラインモデルと比較した。その結果、Agentic-R1はツール支援型と純推論型のモデルの両方の強みを活かし、両方を上回る性能を示した。特に、ツール支援型モデルよりも優れた推論戦略を活用し、純推論型モデルよりも効率的な処理が可能となった。 定量的な分析では、Combinatorics300の問題では79.2%のケースでコード実行ツールが起動し、AMCのデータセットでは52.0%にとどまることが確認された。これは、Agentic-R1が単なる監督的ファインチューニングだけで適切なツールの使用を学習できることを示しており、計算効率と推論精度のバランスを取っている。 また、教師モデルが不完全でも、DualDistillは効果的な学習が可能であることが実証された。例えば、ツール支援型の教師モデルがCombinatorics300で48.4%の精度しか達成できなかったが、Agentic-R1は44.7%から50.9%へと向上し、教師を上回る性能を示した。 この研究は、自然言語推論とツール活用を組み合わせ、柔軟な問題解決能力を持つAIエージェントを構築する新たなアプローチを示している。カーネギーメロン大学の研究チームは、今後も異質な問題解決戦略を統合したAIの開発を推進していく予定だ。