MIT研究チームが開発した「CodeSteer」、言語モデルの問題解決力を30%以上向上させる
AIコーチー「CodeSteer」が言語モデルにテキストとコードを選択する支援 マサチューセッツ工科大学(MIT)の研究チームが開発した「CodeSteer」は、大規模言語モデル(LLM)がコンピュテーショナルやアルゴリズミックタスクを適切に解決するために、テキストとコードの生成を切り替えるアシスタントです。CodeSteer自体は小さなLLMですが、大規模モデルに対して段階的に指示を出し、各ラウンドで生成された回答をレビューし、解決策を修正または改善するよう指導します。 LLMは、ドキュメントの文脈理解や論理的な回答提供では優れていますが、数学的な問題などのシンボリックタスクではしばしば失敗します。たとえば、9.11と9.9のどちらが大きいのかを問われると、LLMは通常のテキスト推理で誤った答えを出すことがありますが、Pythonのようなコードを使って同じ質問に答えるように伝えれば、簡単に正しい答えを出すことができます。 CodeSteerは、大規模なLLMがテキストかコードか選択する手助けをします。初期の段階では、LLMは人間の言語理解と予測のためにトレーニングされており、テキスト生成を優先することが多いのですが、必要に応じてコード生成を選択すべきタスクもあります。しかし、これらのモデルが生成するコードはしばしば間違っていたり、非効率的なことがあります。 MITの研究者は、小型のLLMを微調整して、大きなモデルをテキストとコードの間で導く方法を開発しました。CodeSteerは、まず質問を受け取り、テキストかコードか、どの種類のコードを使用するのが最適かを判断します。その後、大規模モデルに具体的な指示を与え、回答を生成させます。CodeSteerは回答をレビューし、正しくない場合は再度指示を出し、より効率的なアルゴリズムや制約を組み込むなどして問題を修正します。 Symbolic Checkerは、生成されたコードの複雑さを評価し、必要に応じてCodeSteerに信号を送り、コードの非効率性を回避する設計になっています。また、CodeSteerには自己回答チェック機能が組み込まれており、LLMがコードを使って回答の正しさを確認させることができます。 このシステムをテストするために、研究チームは空間推論、数学、順序推論、最適化などの37の複雑なシンボリックタスクで構成される独自のデータセットSymBenchを作成しました。実験では、CodeSteerをサポートしたLLMの平均精度が53.3%から86.4%へ大幅に向上し、最新の高度な推論と計画に特化された modelos よりも高い精度を達成できたことが示されました。計算リソースの消費も少なくなっています。 将来の方向性としては、CodeSteerの反復指示プロセスの高速化や、テキスト推論とコード生成を切り替える能力を持つ統合モデルの効果的な微調整などを調査する予定です。 業界関係者のコメント Google Cloud AIのスタッフ研究科学者であるJinsung Yoon氏は、「この研究は、LLMがツールを利用することの重要な課題に対してエレガントな解決策を提示しています。直接微調整不要のシンプルかつ効果的な方法で、最新のLLMのパフォーマンスを著しく改善できる」と評価しています。Google DeepMindのシニアスタッフ科学者であるChi Wang氏も、「小型の専門モデルが大型の先進的なモデルを戦略的に指導することの成功は特に影響力が大きい。これは、複雑な実世界の状況におけるより堅牢で多様なAIアプリケーションの実現に道を拓いています」と述べています。 MIT研究チームの概要 研究チームは、アエロ・アストロ(航空宇宙工学)専攻の准教授兼MIT Laboratory for Information and Decision Systems (LIDS)所長のChuchu Fan氏を筆頭に、LIDS大学院生のYongchao Chen氏、航空宇宙工学大学院生のYilun Hao氏、イリノイ大学アーバナ・シャンペーン校大学院生のYueying Liu氏、およびMIT-IBM Watson AI LabのResearch ScientistであるYang Zhang氏で構成されています。この研究は、International Conference on Machine Learningで発表されます。