4 个月前

摘要

尽管像代码解释器（Code Interpreter）和搜索（Search）这类工具的集成已显著提升了 ChatGPT Agent 和 Gemini-Pro 等大型语言模型（LLM）的推理能力，但在如何最优使用这些工具方面，仍缺乏实用的指导。其核心挑战在于如何有效结合文本推理、编程与搜索，以应对多样化的问题。本文提出一种名为 Tool-Use Mixture（TUMIX）的集成框架，该框架并行运行多个智能体（agents），每个智能体采用不同的工具使用策略和解答路径。TUMIX 中的智能体基于问题本身及先前的回答，迭代地共享并优化响应结果。实验表明，TUMIX 在多个关键推理基准测试中，显著优于当前最先进的工具增强方法和测试时扩展（test-time scaling）方法，在 Gemini-2.5-Pro 和 Gemini-2.5-Flash 上相较最优基线平均准确率提升高达 3.55%，且推理成本几乎相当。我们发现，智能体的多样性与质量至关重要，而通过使用大语言模型自动优化智能体设计，可进一步提升其性能。此外，TUMIX 可在达到足够置信度时提前终止优化过程，从而在仅需 49% 推理成本的情况下保持优异性能。进一步扩展规模可实现更高性能，但相应地也会带来更高的计算开销。