HyperAI超神经

科学技術大学の修士課程出身者がコード解釈器の利用を制約する因子を解明中国科学技术大学の修士課程出身で、現在 Harvard 大学の博士課程に所属する陳勇超氏と彼の研究チームが、Qwen-3B/7B/14B モデルをベースに、監督学習と群リレーティブ戦略最適化を通じて、144 の推論や計画のタスクでモデルの訓練を行った。訓練中、モデルは複数回にわたりコード解釈器を自由に利用し、これらのタスクにはシンボリック計算の要素が含まれている。ただし、どの推論手法が最適かはモデル自身が学習しなければならない。研究チームは、コード解釈器の訓練がモデル能力に制約され、一部のモデルではテキスト推論の訓練が過度となると、コード生成能力が低下すると発見した。これは LeetCode などの特定のコード基準では明らかにならないが、抽象問題を具体的なコードまたはシンボリック計算に解析する能力に影響を与えている。さらに、多様なタスクへの対応も難しい課題であった。特定のタスクに対する訓練は比較的容易であるが、多種多様なタスクに取り組む際に、モデルが各タスクに適切な戦略を選択することが困難になることがわかった。強化学習だけでは解決が難しいという結論に達したため、監督学習（SFT）の重要性が確認された。陳氏は、大規模モデルを駆使したエージェントや具現化された AI システムが多くのタスクでシンボリック計算を組み込む必要性を強調している。具体例として、ユーザの旅行プランニングやロボットの移動計画などが挙げられる。これらのタスクは、予算や好みに基づく最適化や計画が求められる。一方、シンボリック計算が必要ないタスクでも、コード解釈器の利用が重要な場面がある。たとえば、タスク中にグラフを作成してビジュアル化する必要がある場合などがそうだ。研究チームは以前、ICRA 2024 で Robot Task and Motion Planning using Language Models (AutoTAMP) を、NAACL 2025 で TravelPlanner を発表しており、大規模モデルとシンボリック計算ツールを組み合わせたアプローチについて報告していた。しかし、これらのアプローチは特定のタスクに限定される傾向があった。大規模モデルの強力な汎化性を利用して、シンボリック計算を効果的に組み込む方法を探る中、陳氏はまず Microsoft 研究院でのインターンシップ期間中に、コードを媒体として、各種アルゴリズムやコントローラー、プランナーを統合するアイデアを思いついた。シンボリック計算は、プログラム言語やコントロール・プランニング検索手法などの既存ルール言語を使用するため、モデルが自然にコード解釈器を活用できれば、多様な推論と計画のタスクに対応できる可能性が高い。研究の成果を踏まえ、OpenAI の Code-Interpreter に問題が見つかったことから、それを解決するための方法を試みた。一つは、主モデルを指導する小さな補助モデルの訓練を行う方法であり、これは補助モデルのサイズと訓練の難易度が低く、最も強力な主モデルの能力を最大限に引き出すことができる。もう一つは、単一の大規模モデルを直接微調整して、テキスト推論とシンボリック計算の両方の能力を持つようにする方法である。研究チームは最初の方法を使用して、GPT-4o が 8B モデルの指導下で有効にシンボリック計算を利用できることを示した。また、この方法では多くのタスクで o1 と DeepSeek-R1 よりも優れた性能を発揮することがわかった。この研究成果は、「R1-Code-Interpreter: 大规模言語モデルのコード推論能力の訓練に関する研究」（R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning）として arXiv に公開されている。陳氏は今後、大規模モデルが自己生成、外部ツールの利用、コード生成の三つのモードを使い分けられるフレームワークを開発し、具体的なアプリケーションにおける効果を検証する予定だ。

Related Links