Command Palette
Search for a command to run...
CVEvolve:面向非结构化科学数据处理的自主算法发现
CVEvolve:面向非结构化科学数据处理的自主算法发现
Ming Du Xiangyu Yin Yanqi Luo Dishant Beniwal Songyuan Tang Hemant Sharma Mathew J. Cherukara
摘要
科学数据的处理通常依赖于特定任务的算法或人工智能模型,这为那些需要分析数据但可能缺乏深厚计算或图像处理专长的领域科学家设置了门槛。当数据具有噪声、动态范围大、标签稀疏或仅松散指定时,这一障碍尤为显著。我们介绍了 CVEvolve,这是一个用于科学数据处理算法发现的自主智能体框架,采用零代码接口。CVEvolve 结合了多轮搜索策略与代码执行、评估实施、历史记录管理、独立测试(holdout testing)以及对科学数据和可视化结果的可选检查工具。搜索过程在发现与改进动作之间交替进行,并利用感知谱系的随机候选采样来平衡探索与利用。我们在 X 射线荧光显微镜图像配准、布拉格峰检测和高能衍射显微镜图像分割任务中展示了 CVEvolve 的应用。在这些任务中,CVEvolve 发现的算法性能均优于基线方法,而独立测试追踪有助于识别出泛化能力优于后期过优化方案的候选者。
一句话总结
CVEvolve 是一个具有零代码接口的自主 agent 框架,通过结合多轮搜索策略与谱系感知随机候选采样来平衡探索与利用,从而发现科学数据处理算法。该方法在 X 射线荧光显微镜图像配准、布拉格峰检测和高能衍射显微镜图像分割任务上展示了优于基线方法的改进,同时利用保留测试跟踪来识别泛化能力优于后期过度优化替代方案的候选者。
核心贡献
- 本工作介绍了 CVEvolve,这是一个具有零代码接口的自主 agent 框架,用于科学数据处理算法的发现。该系统结合了多轮搜索策略以及代码执行、评估实现和历史管理工具。
- 该框架采用动态工作流,赋予 agent 配置开发环境的自由,并将用户提供的指标描述转换为可执行的评估程序。谱系感知随机候选采样在搜索过程中平衡了探索与利用。
- 实验展示了该框架在代表性科学成像问题上的应用,例如 X 射线荧光显微镜图像配准和布拉格峰检测。结果表明,agent 合成的算法可与手动基线媲美或超越,同时利用保留测试跟踪确保稳健的泛化能力。
引言
领域科学家在处理复杂非结构化数据(如显微镜图像)时经常遇到瓶颈,原因是缺乏专门的编程专业知识。之前的自动化研究系统通常依赖于具有预定义评估器的结构化优化问题,这限制了它们处理现实世界科学数据集的噪声或可变性的能力。为了解决这一挑战,作者介绍了 CVEvolve,这是一个专为零代码算法发现设计的自主 agent 框架。该系统采用多轮搜索策略,以及代码执行、视觉检查和 agent 管理的保留测试工具,以防止过度优化。CVEvolve 将自然语言指令转换为稳健的处理流程,使科学家能够在不编写自定义评估脚本的情况下开发特定任务的算法。
方法
CVEvolve 被设计为围绕大型语言模型 (LLM) agent 的自主搜索控制器。该系统利用代码、数据、评估、历史和可视化工具来提出、运行和评估候选算法。整体工作流分为三个主要阶段:工作空间准备、基线评估和算法开发。参考框架图以全面了解这些阶段及其交互。
在摄入阶段,agent 准备工作空间、构建环境并实施性能评估。接下来是基线评估阶段,agent 评估用户提供的或建议的基线算法以建立性能基准。系统的核心在于算法开发阶段,该阶段通过一系列轮次运行。在每一轮中,框架根据三种具有不同战略重点的操作之一进行选择:生成、调整或进化。生成操作提出新算法类型,调整操作改进现有候选者,进化操作组合多个现有候选者。对于涉及父候选者的轮次,系统采用受 MAP-Elites 启发的谱系感知采样。每轮结束时,可选地在单独数据集上使用专用 agent 运行保留测试,以处理非结构化数据和评估方案。
为了管理搜索状态,CVEvolve 利用持久关系数据库。这个 SQL 支持的存储保留了候选池、轮次历史和指标定义,允许 agent 查询过去的性能和谱系信息,而无需依赖上下文内存或向量存储。这种设计确保了可重复性和确定性排名。用于调整和进化轮次的候选采样使用基于吉布斯分布的随机方法。设 ri∈{1,2,…} 表示候选者 i 在合格池中的排名,其中 ri=1 为最佳。CVEvolve 为每个候选者分配一个未归一化的选择权重:
wi=exp(−τri−1),其中 τ>0 是控制探索的温度参数。实际采样概率是归一化的吉布斯分布:
pi=∑jwjwi.当 τ→0+ 时,分布变得贪婪,集中于排名靠前的候选者。较大的 τ 值更广泛地分散概率质量。对于进化轮次,应用同谱系惩罚以鼓励组合不同的谱系:
w~i=wiλmi,其中 λ∈[0,1] 是惩罚因子,mi 是已选择的共享候选者谱系的父代数量。
底层 agent 应用程序使用基于 LangGraph 的框架实现。运行时采用紧凑的节点图,分离消息摄入、模型推理、工具执行和可选的图像后续处理。如下图所示:
工作流从摄入节点开始,该节点准备系统和任务提示。状态传递给 LLM 节点进行推理。如果响应包含工具调用,则路由到工具执行节点。如果工具返回包含图像路径的结构化响应,则流程移动到图像后续节点。在此,图像被加载、编码并作为多模态观察附加,然后返回 LLM 进行下一步推理。此机制允许 agent 检查视觉输出,例如图表或科学图像,这对于涉及图像处理流程的任务至关重要,如下面的流程图所示。
CVEvolve 公开了几个工具系列以支持这些操作。文件系统工具允许在工作空间内列出、读取、写入和编辑文件。环境管理工具支持通过 uv add 和 uv run 等命令安装依赖项并执行 Python 脚本。图像查看工具将图像渲染为 agent 可查看的 PNG,支持动态范围选择和在对数缩放下检查弱结构或高动态范围数据。搜索状态工具允许 agent 记录结果、检查历史并提交新候选者。此外,网络搜索工具提供对文献库的访问以指导算法开发。
该系统还支持可选的保留测试,以在设计过程中不暴露保留数据的情况下评估泛化能力。启用时,主 agent 接收描述保留文件夹结构的提示,但无法检查数据。在提交候选者后,会在临时工作空间中生成单独的保留测试 agent 来运行评估并记录指标,确保数据隔离。失败的候选者会被路由到修复轮次,系统尝试修复阻止执行的问题。
实验
CVEvolve 在涉及图像配准、峰值检测和分割的三个计算机视觉任务上进行了评估,成功生成了稳健的分析算法,优于基线算法和其他进化方法。保留测试证明在开发过程中防止过拟合至关重要,特别是在训练数据稀缺时,而单独的优化实验证明了随机采样在避免局部最优方面的价值。这些发现共同验证了该系统能够产生可解释的高性能工作流,用于复杂的科学成像问题,而无需专用的 GPU 资源。
该表展示了 XRF 图像配准任务的保留测试误差,比较了基线算法与进化方法生成的候选者。结果表明,CVEvolve 发现的算法实现了最低的平均欧几里得距离,显著优于暴力基线和 OpenEvolve 发现的候选者。相位相关表现出最高误差,表明它对于此特定配准问题不如其他方法有效。CVEvolve 识别出最准确的算法,在所有测试方法中实现了最低的配准误差。进化候选者显著优于暴力基线,而后者又优于相位相关。相位相关导致最高误差,表明标准策略难以处理此任务的图像特征。
此实验通过比较基线算法与通过进化方法生成的候选者来评估 XRF 图像配准。结果表明,CVEvolve 发现的算法实现了最低配准误差,显著优于暴力基线和 OpenEvolve 发现的候选者。相比之下,相位相关表现出最高误差,表明与进化解决方案相比,标准策略难以处理此任务的图像特征。