
摘要
大型语言模型(LLM)驱动的智能体的出现已经彻底改变了人工智能领域,通过基于网络的信息检索(IS)能力,使得解决复杂、开放性任务成为可能。高质量训练数据的稀缺限制了IS智能体的发展。现有的方法通常采用以信息为中心的范式,首先收集网络数据,然后根据检索结果生成问题。然而,这种方法可能导致信息结构与推理结构、问题与答案之间的不一致。为了解决这一问题,我们提出了一种形式化驱动的IS数据合成框架——WebShaper,用于构建数据集。WebShaper通过集合论系统地形式化IS任务。形式化的核心概念是知识投影(KP),它通过组合KP操作实现对推理结构的精确控制。在数据合成过程中,我们首先创建种子任务,然后采用多步骤扩展过程。每一步中,一个具有智能体功能的Expander利用我们的形式化方法以及检索和验证工具,将当前的形式化问题进一步复杂化。我们在合成的数据集上训练模型。实验结果表明,在GAIA和WebWalkerQA基准测试中,WebShaper在开源IS智能体中实现了最先进的性能。