Command Palette
Search for a command to run...
Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

要約
コードインタプリタや検索機能といったツールの統合は、ChatGPT AgentやGemini-Proなどの大規模言語モデル(LLM)における推論能力を著しく向上させたが、ツールの最適な利用に関する実践的な指針は依然として不足している。本研究の核心的な課題は、多様な質問に対して、テキスト推論、コード生成、検索を効果的に統合することにある。本論文では、複数のエージェントを並列で実行し、それぞれが異なるツール利用戦略と回答経路を採用するアンサンブル型フレームワーク「Tool-Use Mixture(TUMIX)」を提案する。TUMIXにおけるエージェントは、質問および過去の回答に基づいて、反復的に情報を共有し、回答を精緻化する。実験の結果、TUMIXは最先端のツール拡張型およびテスト時スケーリング手法を大きく上回り、Gemini-2.5-ProおよびGemini-2.5-Flashにおいて、主要な推論ベンチマーク上で最良のベースラインに対して平均で最大3.55%の精度向上を達成した。これに対して、推論コストはほぼ同等に抑えることが可能である。また、エージェントの多様性と質が極めて重要であることが判明し、大規模言語モデル(LLM)を用いてエージェント設計を自動最適化することで、その向上が可能であることが示された。さらに、TUMIXは十分な信頼度に達した時点で精緻化を停止でき、推論コストをわずか49%に抑えることで性能を維持できる。より大きなスケーリングを実施すれば、さらに高い性能が得られるが、その代わりにコストも増加する。