Command Palette
Search for a command to run...

摘要
大型语言模型虽为强大的通用模型,但要解决如“人类末日考试”(Humanity's Last Exam, HLE)这类深层次、复杂性问题,仍面临概念上的挑战与高昂的计算成本。我们证明,通过小型协调模型来管理其他模型及多种工具,不仅能提升智能系统的上限性能,还能显著提高解决复杂智能体任务的效率。为此,我们提出 ToolOrchestra——一种用于训练小型协调模型的方法,该模型能够协同调度智能工具。ToolOrchestra 显式地采用基于结果、效率以及用户偏好感知的强化学习奖励机制。基于该方法,我们训练出 Orchestrator 模型(80亿参数),其在保持更低成本的前提下,相较以往工具调用智能体实现了更高的准确率,并能根据用户偏好合理选择特定查询所需的工具。在 HLE 任务中,Orchestrator 取得 37.1% 的得分,优于 GPT-5 的 35.1%,同时效率提升达 2.5 倍;在 tau2-Bench 和 FRAMES 基准测试中,Orchestrator 以约 30% 的成本,大幅超越 GPT-5。大量实证分析表明,Orchestrator 在多个评估指标下实现了性能与成本之间的最佳权衡,并对未见过的工具展现出良好的泛化能力。这些结果表明,通过轻量级协调模型组合多样工具,不仅在效率上优于现有方法,且在整体效果上更具优势,为构建实用、可扩展的工具增强型推理系统开辟了新路径。