Command Palette
Search for a command to run...
Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

摘要
尽管像代码解释器(Code Interpreter)和搜索(Search)这类工具的集成已显著提升了 ChatGPT Agent 和 Gemini-Pro 等大型语言模型(LLM)的推理能力,但在如何最优使用这些工具方面,仍缺乏实用的指导。其核心挑战在于如何有效结合文本推理、编程与搜索,以应对多样化的问题。本文提出一种名为 Tool-Use Mixture(TUMIX)的集成框架,该框架并行运行多个智能体(agents),每个智能体采用不同的工具使用策略和解答路径。TUMIX 中的智能体基于问题本身及先前的回答,迭代地共享并优化响应结果。实验表明,TUMIX 在多个关键推理基准测试中,显著优于当前最先进的工具增强方法和测试时扩展(test-time scaling)方法,在 Gemini-2.5-Pro 和 Gemini-2.5-Flash 上相较最优基线平均准确率提升高达 3.55%,且推理成本几乎相当。我们发现,智能体的多样性与质量至关重要,而通过使用大语言模型自动优化智能体设计,可进一步提升其性能。此外,TUMIX 可在达到足够置信度时提前终止优化过程,从而在仅需 49% 推理成本的情况下保持优异性能。进一步扩展规模可实现更高性能,但相应地也会带来更高的计算开销。