22日前

TUMIX：ツール利用混合を用いたマルチエージェントのテスト時スケーリング

Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

要約

コードインタプリタや検索機能といったツールの統合は、ChatGPT AgentやGemini-Proなどの大規模言語モデル（LLM）における推論能力を著しく向上させたが、ツールの最適な利用に関する実践的な指針は依然として不足している。本研究の核心的な課題は、多様な質問に対して、テキスト推論、コード生成、検索を効果的に統合することにある。本論文では、複数のエージェントを並列で実行し、それぞれが異なるツール利用戦略と回答経路を採用するアンサンブル型フレームワーク「Tool-Use Mixture（TUMIX）」を提案する。TUMIXにおけるエージェントは、質問および過去の回答に基づいて、反復的に情報を共有し、回答を精緻化する。実験の結果、TUMIXは最先端のツール拡張型およびテスト時スケーリング手法を大きく上回り、Gemini-2.5-ProおよびGemini-2.5-Flashにおいて、主要な推論ベンチマーク上で最良のベースラインに対して平均で最大3.55%の精度向上を達成した。これに対して、推論コストはほぼ同等に抑えることが可能である。また、エージェントの多様性と質が極めて重要であることが判明し、大規模言語モデル（LLM）を用いてエージェント設計を自動最適化することで、その向上が可能であることが示された。さらに、TUMIXは十分な信頼度に達した時点で精緻化を停止でき、推論コストをわずか49%に抑えることで性能を維持できる。より大きなスケーリングを実施すれば、さらに高い性能が得られるが、その代わりにコストも増加する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

TUMIX：ツール利用混合を用いたマルチエージェントのテスト時スケーリング

Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

要約

AI で AI を構築

Hyper Newsletters