Command Palette
Search for a command to run...
AI共同数学家:利用智能体AI加速数学研究
AI共同数学家:利用智能体AI加速数学研究
摘要
我们推出了“AI 共数学家”(AI co-mathematician),这是一个专为数学家设计的工作台,旨在通过交互式利用 AI Agent 推进开放式的研究探索。该系统针对数学工作流中探索性与迭代性的特征进行了优化,为包括创意构思、文献检索、计算探索、定理证明及理论构建在内的全流程提供全方位支持。通过提供一个具备状态保持能力且能管理不确定性的异步工作空间,该系统能够细化用户意图、记录失败假设,并输出原生数学产物,从而高度还原人类协作研究的工作流。在早期测试中,“AI 共数学家”协助研究人员解决了开放性问题,发现了新的研究方向,并挖掘出被忽视的文献引用。除了展示一种高度互动的 AI 辅助数学发现范式外,“AI 共数学家”在具有挑战性解题基准测试中也取得了最先进(State of the Art)的结果:在 FrontierMath Tier 4 基准测试中得分达到 48%,创下所有已评估 AI 系统的最高纪录。
一句话总结
作者提出了 AI 合作数学家,这是一个有状态的 Agent 工作台,不同于先前的工具,它通过不确定性管理和假设跟踪,在构思和定理证明期间全面支持数学研究,从而在 FrontierMath Tier 4 基准测试中实现最先进的结果,同时加速开放问题的解决并发现被忽视的文献引用。
核心贡献
- 本文介绍了 AI 合作数学家,这是一个旨在帮助数学家交互式利用 AI Agent 进行开放式研究的工作台。该系统在异步环境中为构思、文献搜索和定理证明等工作流提供全面支持。
- 该系统利用有状态的工作区来管理不确定性并跟踪失败的假设,以模拟人类协作工作流。它将输出植根于原生数学制品,并维护一份活跃的工作论文以记录完整的研究历程。
- 早期用户测试表明,该系统帮助研究人员解决了开放问题并确定了新的研究方向。该系统还在难题解决基准测试中取得了最先进的结果,在 FrontierMath Tier 4 上得分为 48%。
引言
数学研究涉及复杂的迭代工作流,而当前的 AI 工具往往无法全面支持这些工作流。虽然现有系统在独立问题求解或形式化验证方面表现出色,但它们缺乏长期探索和假设管理所需的有状态编排。作者介绍了 AI 合作数学家,这是一个有状态的工作台,支持人类和 Agent AI 之间的交互式协作。该系统管理不确定性并跟踪研究制品,同时利用强大的底层模型来解决开放问题并在硬基准测试中取得领先结果。
方法
AI 合作数学家作为一个分层多 Agent 框架运行,旨在模拟专业数学工作流。该系统通过将 Agent 组织成一个支持异步交互和渐进式披露的结构化团队,避免了标准对话聊天机器人的局限性。这些 Agent 的整体组织在框架图中有所描绘,该图说明了用户、项目协调员、工作流协调员和专用子 Agent 之间的通信路径。
用户主要与顶层项目协调员 Agent 交互,该 Agent 作为管理项目高层策略的中心接口。如下图所示,交互始于入职阶段,用户和项目协调员迭代地将原始输入完善为正式的研究问题和一组具体目标。此过程确保下游计算资源指向数学家的实际、完善意图,而非可能模糊的初始提示。
一旦目标获得批准,项目协调员将工作委托给并行的工作流协调员。这种分支能力允许系统同时探索多个查询途径,而不会阻塞用户。这种分支的进展在下一图中可视化,其中单一研究问题分裂为不同的目标,每个目标都与随时间演变的独立工作流相关联。此结构使系统能够并行处理多样化的任务,例如文献综述和计算框架设计。
在每个工作流内,工作流协调员 Agent 编排一系列线性操作以实现其特定目标。这些操作可能涉及将任务委托给专用子 Agent,例如用于文献搜索或代码执行的子 Agent。下图显示了单个工作流的详细轨迹,突出了执行任务、更新项目报告以及响应外部请求的迭代循环。工作流通过将最终报告发送审查而结束,在此过程中,它由 AI 审查 Agent 进行严格审查,以确保在最终确定之前具备严谨性。
实验
评估结合了早期访问试用和专业数学家的控制基准测试,以评估交互式 AI 合作数学家。案例研究验证了该系统作为协作伙伴的效用,当用户利用领域专业知识积极指导工作流时,该系统可解决开放问题并加速探索。基准测试结果进一步表明,该 Agent 架构通过利用并行推理和外部工具,在复杂研究任务上显著优于基础模型,尽管在自主审查稳定性以及对数学文献标准的潜在影响方面仍存在挑战。