大規模言語モデルのコード実行能力、文字推理と符号計算の統合に成功 研究チームは、Qwen-3B/7B/14B を基にしたモデルを多様なタスクで訓練し、文字推理と符号計算の最適な組み合わせを見つけました。この研究は、将来の大規模言語モデルがさまざまなタスクを効率的に処理するために、コード実行器の利用と符号計算の統合が必要であることを示しています。
研究チームが示した、コード実行器と大規模言語モデルの統合の課題と展望 中国科技大学出身で現在ハーバード大学の博士課程在籍中の陳勇超とそのチームは、Qwen-3B/7B/14Bを基盤にした大規模言語モデル(以下LLM)の能力を拡張する研究を進めています。彼らはマルチステップの監督学習ファインチューニング(SFT)とグループ相対的ポリシーオプティマイゼーション(GRPO)を用いて、このモデルが144の推論・計画タスク上で自由に複数回コード実行器を利用するよう訓練を行ったという研究結果を発表しました。これらのタスクには、言語による推論とシンボリック計算の要素がともに含まれており、その最適な組み合わせを自動的に判断・学習することが目指されました。 このプロセスを通じて、陳勇超氏らは、コード実行器の機能がLLMの能力に制限されることを明らかにしました。具体的には、文字での推論トレーニングが行き過ぎると、コード生成スキルが落ちることを発見しました。このような問題は、特定のコーディングベンチマーク(例:LeetCode)での評価では顕在意ではないものの、日常的な具体的問題解決の場面では頻繁につぶささが出るものです。多様なタスクへの対応が求められる中、個別のタスクに対して最適な戦略を決定することは大きな課題となりました。例えば、ある問題で文字での推測が適している場合、別の問題では符号計算が適する場合があります。 そこで、研究グループは強化学習だけでなく、監督学習も組み合わせることで、これらの課題を克服できる可能性があると見出しています。「SFTを重視する我々のアプローチが重要」と陳氏は述べています。 将来的な展望として、陳氏たちは大規模言語モデルにロボットの制御や旅行計画などの具現的環境での意思決定やプランニングに対するシンボリック計算を取り入れ、文字での推論とコード操作技能の自然な組み合わせを目指すと話しています。この研究で試験されたモデルはOpenAIの Code Interpreterと比較して優れていますが、完全な解法に至るまでの途中の部分で依然として不足があることも明らかです。 この研究チームの新たな成果「R1-Code-Interpreter」は、SFTと強化学習を併用してLLMにコード操作能力を付与し、その性能を高める取り組みの一環として開発されました。LLMの高度な一般化能力を失うことなくシンボリック計算を利用することで、より洗練された問題解決ができると期待されています。 彼らは今後も、大規模言語モデルが文字推理、ツール利用、そしてコード生成という三つの問題解決手法を自発的に選択・活用するフレームワークやアルゴリズムの開発について追求していく予定です。これは、異なるタスクや環境下でも高性能なパフォーマンスを維持したまま、各手法間を柔軟に切り替えることが可能となることを意味します。研究は将来、リアルタイム旅行計画システムやWebスクレイピング、科学問題の解答など広範な実用タスクへと適用されることが予想されます。このアプローチによって大規模言語モデルの汎用性と有用性が一段と高まることは間違いないでしょう。