Command Palette
Search for a command to run...
超越静态工具:面向科学推理的测试时工具演化
超越静态工具:面向科学推理的测试时工具演化
Abstract
科学领域人工智能的核心挑战并非单纯的推理能力,而在于能够在开放式的科学环境中构建计算方法。现有的基于大语言模型(LLM)的智能体依赖于静态、预定义的工具库,这一范式在科学领域中存在根本性缺陷——因为科学工具通常稀疏、异构且本质上不完整。本文提出一种新范式——测试时工具演化(Test-Time Tool Evolution, TTE),使智能体能够在推理过程中自主合成、验证并持续演化可执行工具。通过将工具从固定资源转变为以问题驱动的动态产物,TTE有效克服了静态工具库所固有的僵化性与长尾问题。为支持严谨的评估,我们构建了SciEvo基准,包含1,590个科学推理任务,并配有925个自动生成的演化工具。大量实验表明,TTE在准确率与工具使用效率方面均达到当前最优水平,同时实现了计算工具在跨领域任务间的高效迁移与适应。相关代码与基准数据集已开源,地址为:https://github.com/lujiaxuan0520/Test-Time-Tool-Evol。
一句话总结
上海人工智能实验室、复旦大学及合作机构提出测试时工具演化(TTE),一种新范式,使大语言模型(LLM)代理在推理过程中能够动态合成、验证和演化可执行工具,突破了静态工具库在科学AI中的局限性,将工具视为问题驱动的产物,实现了在包含1,590个任务和925个演化工具的SciEvo基准上的最先进性能,具备广泛的跨领域适用性。
主要贡献
- 基于LLM的科学推理受限于静态、预定义的工具库,无法适应现实科学问题中稀疏、异构和开放性的特点,导致代理仅能被动选择工具,而非主动发现。
- 本文提出测试时工具演化(TTE),一种新范式,使LLM代理能够在推理过程中动态合成、验证和演化可执行工具,将工具从固定资源转变为问题驱动的产物。
- 在包含1,590个科学任务和925个演化工具的SciEvo基准上进行评估,TTE在准确率和工具效率方面均达到最先进水平,展现出强大的跨领域适应性和高效的按需工具生成能力。
引言
作者针对科学推理中AI存在的关键缺口提出解决方案:现有大语言模型(LLM)代理依赖静态、预定义的工具库,难以应对科学发现中开放且不断演进的本质。这些静态库存在稀疏性、异构性,且无法按需生成新的计算原语,导致代理仅能被动选择工具,而非主动解决问题。为克服这一局限,作者提出测试时工具演化(TTE)范式,使代理能够在推理过程中动态合成、验证和演化可执行工具。这一转变将工具从固定资源转变为问题驱动的产物,使代理能够实时适应未见的科学挑战。该框架在SciEvo上进行评估,这是一个包含1,590个科学任务和925个演化工具的新基准,结果表明其在准确率和工具效率方面均达到最先进水平,并展现出强大的跨领域适应能力。
数据集
- SciEvo基准通过TTE-Zero框架的演化过程构建,工具从零开始生成,而非来自静态代码库,确保与真实科学推理任务高度对齐。
- 种子数据包含1,590个高质量科学问题,来源于三个渠道:SciEval(Sun et al., 2024)、SciBench(Wang et al., 2024)以及一个专注于领域特定计算的专有材料科学数据集。
- 仅保留需要多步推理和精确数值解的计算类问题;纯知识类查询被过滤掉。
- 为确保多样性,候选问题使用句子嵌入模型(Reimers and Gurevych, 2019)进行嵌入,通过K-Means聚类,并从每个簇中均匀采样,形成平衡的种子集。
- 种子集提供问题上下文(Q)和真实答案(A),用于在工具合成过程中验证工具正确性。
- 使用TTE-Zero框架,代理从空工具库开始,针对种子问题迭代生成、执行并验证Python函数。仅保留成功贡献于正确答案的原子函数。
- 该过程最终生成一个经验证的925个原子工具库,完全契合问题空间。
- 工具按25个子学科的层级分类,涵盖四个主要领域:物理学(499个工具)、化学(192个)、数学(171个)和材料科学(63个),通过工具描述嵌入的主成分分析(PCA)建立,并由博士级专家进一步优化。
- 该数据集用于实验,评估问题求解准确率和工具演化效率,SciEvo作为主要基准,与SciBench和SciEval并列。
- 在训练和评估中,模型使用经过筛选的SciEvo数据集中的问题混合,工具使用在推理过程中动态调整。
- 未采用显式裁剪;而是通过语义聚类处理数据集,确保各学科的均衡表示。
- 每个工具的元数据包括其领域、子学科、函数签名和验证状态,均在演化过程中构建,以支持可追溯性和分析。
方法
作者采用闭环演化框架实现测试时工具演化(TTE),从根本上突破静态工具范式,使工具在问题求解过程中得以生成和优化。整体架构如框架图所示,包含五个集成模块,形成持续循环:结构化任务分解、动态工具检索、生成式工具合成、原子工具精炼和运行时执行。该流程始于问题分析器,将复杂科学查询分解为一系列可执行的子目标,每个子目标需特定计算操作。随后进入动态工具检索阶段,系统根据子目标描述与工具元数据之间的语义相似度,查询动态工具注册表。检索过程由阈值决策控制:若检索工具的相似度得分超过预设阈值,则被选中;否则,系统触发生成式工具合成模块,按需创建新工具。

生成式工具合成模块采用思维链推理过程提出新工具,随后由工具验证器通过语法检查、执行测试和领域验证进行严格验证。仅通过所有检查的工具才会进入原子工具精炼阶段。在此阶段,原子分解器将复杂工具分解为基本原子单元,通过最大化预期重用提升,实现子函数的部分可重用。冗余检查器随后使用语义相似度将这些新原子工具与现有库进行比较;仅当新工具与所有现有条目足够不同时,才被注册。同时,为保持效率,当库容量超限时,系统会修剪低使用率工具。最终阶段为运行时执行引擎,将检索到或生成的工具整合为序列,合成最终答案,闭环完成,将演化后的库能力应用于用户查询。整个过程设计具有鲁棒性,具备在工具合成失败时优雅降级的回退机制。
实验
- TTE-Zero从零开始评估工具演化,最大库容量为500。在SciBench上,准确率达到0.45,超过KTCE(0.37)和CheMatAgent(0.34)。在SciEvo上,准确率达到0.62,优于CheMatAgent(0.56)和KTCE(0.55),验证了动态工具合成相比静态或检索式方法的优势。
- TTE-Zero展现出高工具重用率:在SciEvo上,TRR@1达到0.99,表明生成工具几乎被完全利用;TRR@10保持在0.41,证实了可重用科学原语的出现,而基线如Creator(TRR@10 = 0.02)则表现较差。
- 消融实验表明,子目标分解(“S+Tools”)在准确率上显著优于直接查询检索(“Q+Tools”),在Qwen2.5-7B上提升达0.364 vs. 0.313,凸显结构化分解对精确工具检索的重要性。
- TTE-Adapt通过平衡先验知识保留与新知识整合,实现跨领域适应。在化学和物理领域,TRR_trans@1从0.26降至0.23,同时TRR_evol@1分别提升至0.24和0.32,表明有效缓解了负迁移,并成功实现知识替换。
- 工具重用分析显示,TTE将工具使用频率向更高频次(10–50+)转移,表明从一次性脚本向通用原语转变;而基线则呈现左偏分布,多数工具仅使用一次或两次。
- 观察到“工具过载现象”:当库容量从100增至500时,因检索冲突和上下文干扰,查询到工具的匹配性能下降,凸显了超越扁平相似度搜索的先进检索架构的必要性。
- 案例研究证实TTE能自主合成缺失原语:在摩尔质量估算中,其演化出专用的calculate_molar_volume函数,实现精确解(169 g/mol);在电镀化学计量中,生成calculate_moles_of_electrons和calculate_area工具,得出精确结果(31.6 g,1283 cm²)。
作者使用柱状图比较不同模型在三种工具库规模(100、250、500工具)和三种设置下的准确率:无工具调用、Q+Tools(使用原始查询)和S+Tools(使用子目标分解)。结果表明,S+Tools方法在所有模型和库规模下均保持最高准确率,尤其在500工具设置下提升最为显著。Q+Tools方法通常优于无工具调用基线,但S+Tools方法展现出明显优势,尤其在GPT-3.5-turbo和GPT-4o等模型上,表明子目标分解显著提升了工具利用率和问题求解性能。

作者使用提供的表格展示TTE框架的自适应执行过程,系统动态决定是检索现有工具还是演化新工具。结果显示,系统能成功检索常见操作(如电荷计算、质量转换)的标准工具,但对缺失功能(如计算电子摩尔数、托盘面积)则演化新原语,通过针对性工具合成实现准确求解。

作者使用逐步执行追踪,展示系统如何通过结合检索工具与新演化原语来处理复杂科学问题。在第3步,系统识别出计算摩尔体积的缺失计算原语,并自主合成新工具,成功执行并生成正确中间结果,从而实现最终计算的准确完成。这种自适应行为凸显了系统通过按需合成弥补工具库缺口的能力。

结果显示,TTE-Adapt在两种跨领域设置下均优于“无工具”和“仅源”基线,性能提升由自适应替换机制驱动。系统降低了对预存工具的依赖(TRR_trans更低),同时有效将新知识整合为可重用原语(TRR_evol更高),表明其成功适应目标领域。

作者使用工具重用率(TRR@k)评估TTE-Zero设置下的工具演化质量,该设置下系统从零开始合成工具库。结果显示,TTE-Zero在所有阈值下均显著高于基线,TRR@1在SciBench上达0.89,在SciEvo上达0.99,表明生成工具几乎被完全利用,且可重用科学原语得到有效整合。
