Command Palette
Search for a command to run...
结合双向进化搜索的自我改进语言模型
结合双向进化搜索的自我改进语言模型
Guowei Xu Zhenting Qi Huangyuan Su Weirui Ye Himabindu Lakkaraju Sham M. Kakade Yilun Du
摘要
搜索已被提出作为提升语言模型与智能体系统自我改进的有效方法,既适用于训练后样本生成,也适用于推理过程。然而,诸如Best-of-N采样和树搜索等广泛应用的方法面临两个根本性局限:其受稀疏验证信号引导,且主要通过自回归扩展构建候选项,从而将探索范围限制在模型概率质量较高的区域内。为解决上述问题,我们提出双向进化搜索(Bidirectional Evolutionary Search, BES),这是一种将前向候选项进化与后向目标分解相耦合的搜索框架。在前向搜索中,BES 通过进化算子增强标准扩展过程,这些算子对部分轨迹进行重组,以生成难以通过单次模型 rollout 获得的候选项。在后向搜索中,BES 将原始任务递归分解为可验证的子目标,生成密集的中间反馈以指导前向搜索。我们提供了理论依据,表明仅依赖扩展的搜索所生成的候选项被限制在狭窄的熵壳内,而进化算子能够突破该限制;同时,后向搜索可指数级降低寻找正确答案所需的样本数量。实验表明,在主流训练后算法难以取得提升的具有挑战性的训练后任务上,BES 实现了稳定增益;在推理阶段的三个开放问题解决基准测试中,BES 在平均性能与最佳性能方面均优于现有开源框架。代码与训练模型已开源,地址为:https://github.com/Embodied-Minds-Lab/BES。
一句话总结
作者提出了双向进化搜索(Bidirectional Evolutionary Search, BES),这是一个用于语言模型自我改进的框架。该框架通过将部分轨迹的前向进化重组与后向递归任务分解相结合,克服了传统树搜索中验证信号稀疏和探索受限的问题。从理论上讲,它使候选解能够突破狭窄的熵壳,并指数级降低寻找正确答案所需的样本量。
核心贡献
- 双向进化搜索(BES)将候选解的前向进化与目标后向分解相结合,以增强语言模型和智能体系统的自我改进能力。前向搜索运用组合、平移、删除和交叉算子对部分轨迹进行重组,而后向搜索则将任务递归分解为可验证的子目标,从而提供密集的中间反馈。
- 理论分析表明,标准的自回归扩展会将候选解限制在狭窄的熵壳内,而进化算子能够突破这一约束。此外,研究还证明后向目标分解能够指数级降低定位正确解所需的样本复杂度。
- 在训练后和推理设置下的实证评估表明,在 GRPO、MaxRL 和 Tree-GRPO 无法提升基础模型性能的逻辑与多跳推理任务中,BES 始终能发现高质量的训练样本。在三个开放问题解决基准测试中,BES 找到的解比 OpenEvolve、GEPA 和 ShinkaEvolve 更加稳定且质量更高。
引言
大型语言模型和智能体系统在复杂推理与代码生成任务中取得了显著性能,这使得高效采样成为训练后自我改进和推理时扩展的关键因素。当前方法主要依赖最佳 N 采样和树搜索,但这些方法面临两大根本挑战。首先,它们依赖稀疏的验证信号,仅提供二值或粗粒度的反馈,从而削弱了搜索指导作用。其次,由于它们通过自回归扩展生成候选解,因此始终局限于模型现有的分布,难以探索通常包含最优解的低概率区域。为突破这些瓶颈,作者提出了双向进化搜索,将候选解的前向生成与可验证子目标的后向分解相结合,以提供密集反馈。此外,该方法借鉴进化生物学,应用重组和变异算子拼接不同推理轨迹的片段,使模型能够突破狭窄的熵壳,并系统性地发现更高质量的解。
数据集
-
数据集构成与来源:作者为开放问题解决任务编译了一套基准测试套件,并为每个任务配备了专为进化搜索系统定制的提示词。数据源自成熟的编程基准测试,核心聚焦于迭代式程序改进。
-
各子集的关键细节:该集合包含一个后向搜索分解提示词,用于从目标树叶节点中提取可验证的子目标,以及四个标记为 DIFF、DIFF_ABLATE、FULL 和 CROSS 的进化操作提示词。每个基准测试还记录了评估过程中发现的最优程序结构。
-
数据使用与处理:作者利用这些提示词驱动后向搜索分解与前向搜索变异。所有提示词模板均依赖标准的 Python 字符串格式化占位符,将代码内容、性能指标和文本反馈动态注入模型上下文。
-
输出结构与元数据:生成的响应遵循严格的 JSON 数组格式,包含条目类型、描述性理由、验证代码和预期结果等字段。输入上下文经过精心结构化设计,以分离当前程序状态、父级代码骨架及相关指标,确保在整个优化过程中具备清晰的追溯性。
方法
双向进化搜索(BES)框架将前向搜索与后向搜索相结合,以克服现有方法依赖稀疏验证信号和受限候选生成的局限性。如图所示的整体架构包含两个耦合过程,用于迭代优化候选解。前向搜索扩展并重组部分轨迹以生成新候选,后向搜索则将问题分解为可验证的子目标以提供密集的中间反馈。这种双向交互使前向搜索能够在丰富、结构化反馈的指导下探索更广阔的解空间,从而发现仅靠自回归扩展难以获得的解。
前向搜索作用于部分轨迹的候选集 P,其中每条轨迹由一系列步骤(如推理片段、动作)组成。在每次搜索步骤中,算法对父节点应用两类算子之一以生成子节点。扩展操作通过从策略 πθ 采样新步骤来延伸父轨迹,如图 2(a) 所示。这是标准的自回归方法。相比之下,进化算子通过重组现有轨迹来生成新候选,从而突破策略的狭窄熵壳。如图 2 所述,四种进化算子分别为:(i) 组合(Combination),通过拼接两个轨迹在共享前缀之外的后缀来合并它们;(ii) 删除(Deletion),移除轨迹中的内部步骤;(iii) 平移(Translocation),用另一条轨迹的步骤替换当前轨迹中的某个步骤;(iv) 交叉(Crossover),将一条轨迹的前缀拼接至另一条轨迹的尾部。算子及其父节点的选择由后向分数的玻尔兹曼分布指导,且温度随搜索预算进行退火处理,以实现从探索到利用的过渡。
后向搜索通过将原始问题递归分解为细粒度子目标树,解决了最终验证器信号稀疏的问题。如图所示的该过程将问题转化为层级结构,其中每个子目标均可验证。后向搜索通过递归遍历目标树为每个前向节点计算分数。节点分数是其针对子目标的局部验证结果与其子节点平均分数的加权组合。这提供了密集且可解释的反馈信号,从而指导前向搜索。例如,在多跳推理问题中,正确识别出艺术家但未能找到唱片公司的候选解将获得部分分数,使其有资格被选为父节点以进行进一步细化。用于衡量两个节点对目标树联合覆盖率的成对分数(pair score),进一步鼓励选择互补的父节点。
BES 算法在前向与后向步骤之间交替执行。前向搜索维护候选轨迹池并应用扩展或进化算子。经过固定数量的前向步骤后,调用后向搜索通过分解未解决的叶节点子目标并重新评估所有候选解来优化目标树。该迭代过程持续进行,直到找到高分终端候选解或计算预算耗尽。该框架的有效性得到了理论结果的支撑:进化算子能够突破仅依赖扩展的搜索熵壳,而后向子目标分解通过将乘积型问题转化为子目标收集问题,在寻找解的过程中提供指数级优势。完整伪代码详细描述了协调这些组件的主循环。
实验
实验在训练后和推理设置下评估 BES,利用逻辑与多跳推理任务验证样本发现与 Agent 搜索行为,并结合开放问题解决基准测试评估解的质量与搜索稳定性。定性分析表明,BES 始终优于现有基线,其通过有效识别高质量训练样本,引导模型主动参与多步推理,而非依赖捷径或随机猜测。该框架展现出稳健的性能,跨运行周期的方差显著降低,同时保持合理的计算开销。消融实验证实,双向搜索机制与进化算子对其成功至关重要。总体而言,BES 提供了一个可靠高效的搜索框架,能够提升模型在多样化任务中的推理能力与解的发现效率。
作者在开放问题解决基准测试上评估 BES,并将其与开源框架及高性能闭源方法进行对比。结果表明,BES 在所有任务中均实现了具有竞争力的性能,通常与其他框架的最佳结果持平或超越,同时展现出更低的方差与更高的稳定性。BES 在平均目标值和最优目标值上也优于基础框架,尤其在圆形填充(Circle Packing)和海尔布隆凸包(Heilbronn Convex)问题中表现突出。BES 在开放问题解决基准测试中实现了具有竞争力的性能,其结果与成熟的开源框架及高性能闭源方法持平或超越。与其他框架相比,BES 在多次运行中表现出更低的方差,表明其搜索行为更加稳定可靠。BES 在平均目标值和最优目标值上均优于基础框架,尤其在圆形填充和海尔布隆凸包问题中优势明显。
作者在训练后与推理设置下评估 BES,验证了通过优化采样与搜索策略来提升逻辑及多跳推理能力的有效性。结果表明,BES 在准确率、搜索行为与稳定性方面始终优于基线,同时保持合理的计算开销。通过消融实验与成本分析验证了框架各组件的作用,确认了双向搜索与进化算子的重要性。在逻辑与多跳推理任务中,BES 相比基线实现了准确率和搜索行为的显著提升。在开放问题解决基准测试中,BES 以更低方差和更高稳定性超越了开源框架。消融实验证实,双向搜索与进化算子对 BES 的有效性不可或缺。
作者使用 MuSiQue 数据集在训练后阶段评估 BES 在多跳推理上的表现,并与包含 GRPO 和 Tree-GRPO 在内的基线进行对比。结果表明,BES 实现了更高的准确率,并显著提升了有效搜索动作数量与完成率,优于所有基线方法。该模型在两种参数规模下均稳定优于其他方法,表明其对搜索行为的学习更为深入且训练更为有效。与 GRPO 和 Tree-GRPO 相比,BES 获得了更高的准确率及更优的搜索相关指标表现。BES 提升了有效搜索动作数量与完成率,反映出更高效的搜索行为学习。在两种模型规模下,BES 均超越基线,展现出跨参数规模的一致性能增益。
作者使用 MuSiQue 数据集及两种模型规模,评估 BES 在训练后多跳推理任务中的表现。结果表明,BES 相比基线显著提升了准确率,且在两种模型规模下均取得显著增益。BES 还实现了更多的有效搜索动作与更优的完成率,表明其搜索行为比基线更为高效。在两种模型规模下,BES 的准确率均高于基线,相较于 GRPO 和 Tree-GRPO 提升显著。BES 生成了更多有效搜索动作与更高完成率,进一步印证了其更高效的搜索行为。在所有指标上,BES 均优于基线,展现出在多跳推理任务中的卓越性能。
作者在训练后与推理任务上评估 BES,并与 GRPO 和 Tree-GRPO 等基线进行对比。结果表明,BES 在逻辑推理、多跳推理及开放问题解决基准测试中均持续提升性能,且搜索行为稳定可靠。消融实验证实,双向搜索与答案重加权组件在 BES 中均具有重要作用。BES 在训练后与推理任务中均实现了对基线的稳定超越,展现出更优越的采样与搜索能力。与开源框架相比,BES 表现出更稳定的性能与更低的运行方差,表明其搜索行为更为可靠一致。消融实验进一步确认,双向搜索与答案重加权是促成 BES 有效性的核心组件。
作者在训练后与推理设置下,针对开放问题解决基准测试及多跳推理任务全面评估 BES,并与成熟的开源、闭源及基线方法进行对比。这些实验验证了 BES 能够通过学习更高效的采样与搜索策略,持续增强逻辑与多跳推理能力,从而在不同模型规模下实现显著更可靠、更稳定的性能。消融实验进一步确认,双向搜索、进化算子与答案重加权是推动这些改进的核心组件。总体而言,BES 被证明是一个稳健的框架,在保持合理计算开销的同时,性能优于现有方法。