Command Palette
Search for a command to run...
验证视界:编程 Agent 奖励没有银弹
验证视界:编程 Agent 奖励没有银弹
摘要
一种经典的直觉认为,验证解决方案比生成解决方案更为容易。对于当前的编码 agent,这一直觉正被颠覆:随着基础模型发展出更强的推理能力,且工程工具链日益复杂,生成复杂的候选方案已不再困难,而可靠地验证这些方案则成为更具挑战性的难题。我们所能构建的任何验证器仅是人类意图的代理,而非意图本身。这导致验证面临双重困难:首先,意图天然具有规定不足的缺陷,使得固有地难以忠实检验其是否得到满足;其次,在模型训练过程中,优化过程会拉大代理与意图之间的差距,具体表现为奖励黑客或信号饱和。针对这一问题,我们从可扩展性、忠实性和鲁棒性三个维度对验证信号的质量进行刻画,并指出同时实现这三项指标是核心挑战。我们进一步探讨了四种奖励构建方式:面向通用编码任务的测试验证器、面向前端任务的评分标准验证器、面向现实世界 agent 任务的用户验证机制,以及面向长周期任务的自动化 agent 验证器。针对不同任务类型与策略能力水平,我们围绕奖励设计的核心挑战及如何更高效地利用奖励信号展开了深入分析与实验。实验结果表明,针对性的验证设计能够有效抑制奖励黑客现象,提升任务完成质量,并在多项内部与公开基准测试中取得显著性能提升。上述经验共同指向一个核心结论:随着策略能力的持续提升,任何固定的奖励函数均无法长期保持有效性;验证机制必须与生成器协同进化。
一句话总结
Qwen团队从可扩展性、忠实度和鲁棒性三个维度刻画了验证信号,以解决编码Agent奖励作为代理指标的局限性。实验表明,针对内部与公开基准的测试显示,定向奖励构建能够有效抑制奖励黑客行为,提升任务完成质量,且必须与生成器能力协同进化,而非依赖静态函数。
核心贡献
- 本文从可扩展性、忠实度和鲁棒性三个维度刻画验证信号质量,并将三者同步优化确立为编码Agent的核心挑战。
- 该研究针对不同的开发场景开发了四种专用奖励构建方案,包括面向通用编码任务的测试验证器、面向前端任务的评分标准验证器、面向真实世界Agent任务的“用户即验证器”设计,以及面向长周期任务的自动化Agent验证器。
- 跨多种任务类型与策略能力水平的广泛实验表明,定向验证设计能有效抑制奖励黑客行为,提升任务完成质量,并在多项内部与公开基准测试中取得显著收益。
引言
本文探讨了编码Agent开发中的动态变化:生成复杂代码的速度已超越可靠验证的能力。由于人类意图天然存在定义不足的问题,现有验证器仅作为不完美的代理指标,随着模型能力提升,不可避免地会出现奖励黑客、信号饱和与目标偏离等问题。以往方法通常依赖静态测试套件、固定评分标准或离线反馈,无法捕捉动态运行时行为、区分工程质量或适应新兴的利用策略。为弥补这些不足,本文提出一种协同进化框架,使验证器设计与生成器演进在四个不同任务领域保持对齐。研究引入了定向奖励构建方案,包括惩罚依赖捷径方案的轨迹级行为监控器,并证明自适应验证能显著抑制奖励黑客行为,同时在多项基准测试中提升干净任务的完成率。
数据集
方法
本文提出一种综合性的验证与训练框架,旨在确保随着策略能力提升,奖励信号始终保持忠实、可扩展且具备鲁棒性。该方法将验证视为核心基础设施,与策略模型主动协同进化。如概念图所示,验证器与策略模型的能力均随训练时间推移而提升。系统通过验证器与策略同步持续演进,克服奖励黑客与指导信号饱和等挑战,构建协同进化飞轮以维持可信的能力增长。
针对前端与视觉任务,本文设计了一种具有Agent能力的交互式裁判,通过模拟用户交互来评估生成产物。完整流程请参考框架图。流程始于预处理阶段,提取无障碍树与浏览器状态等页面信息,同时将评估标准转化为关键项与细节检查清单。随后,动作规划器通过单次前向传播生成全面的动作列表,明确执行目标功能所需的交互序列。该动作列表由基于Playwright的渲染服务器在实际浏览器环境中执行,并记录包含屏幕录像与状态变化的交互轨迹。最后,裁判模型依据预定义评分标准,对录像中的采样帧与源代码进行评估以生成最终得分。该架构将评估基础建立在实际运行时行为而非静态代码审查之上,能够捕捉状态迁移与多步工作流等动态行为,同时抵御基于源代码长度的奖励黑客攻击。
训练过程利用这些验证信号,并通过针对不同类型数据定制的多重目标进行优化。针对源自真实用户交互的任务,本文将以用户反馈作为主要验证器。研究提取过程级自然语言反馈,并将响应轨迹划分为极性一致的连续片段。训练框架包含监督微调(SFT)与重加权SFT(RW-SFT),后者根据极性标注对token应用差异化的损失权重,以放大正向信号并削弱负向信号。标准SFT对所有token应用统一的交叉熵损失,而RW-SFT引入如下定义的权重函数:
w(pt)=⎩⎨⎧wposwneuwnegif pt=positiveif pt=neutralif pt=negative相应的损失计算如下:
LRW−SFT(θ)=−Et[w(pt)logπθ(yt∣x,y<t)]为进一步提升模型与人类意图的对齐程度,本文引入片段级KTO(Span-Level KTO)。该方法将每个片段的隐式奖励定义为策略模型与冻结参考模型之间对数似然比之和:
rθ(x,Sk)=t=sk∑ek[logπθ(yt∣x,y<t)−logπref(yt∣x,y<t)]参考点通过批次奖励的指数移动平均在线估算:
zref←α⋅zref+(1−α)⋅rˉbatch偏好损失根据相对于参考点的优势值,对正向与负向片段应用不同的价值函数:
ℓ(Sk)={−λw⋅σ(β⋅ak)−λl⋅σ(−β⋅ak)if pSk=positiveif pSk=negative整体偏好目标计算为所有片段的期望值:
Lpref(θ)=ESk[ℓ(Sk)]中性token通过标准交叉熵正则化予以保留:
Lneutral(θ)=−Et∈Tneu[logπθ(yt∣x,y<t)]完整的训练目标将偏好损失与中性正则化项相结合,以指导策略优化。
实验
实验在多项软件工程基准上对比评估了提出的Span-KTO框架与标准监督及重加权基线,验证了其在提升任务解决率与整体Agent行为方面的能力。分析表明,简单丢弃或严厉惩罚负向训练数据会降低性能,而Span-KTO能有效缓解低效与沟通错位等负向行为,尤其在复杂或未解决的任务中表现显著。关于评估器设计的补充研究表明,提示词粒度必须仔细校准以平衡过滤质量与排序一致性,因为最优评估策略从根本上取决于下游训练目标。最后,消融实验证实了交互式裁判流程的稳定性,并表明Span-KTO能够可靠地从负向片段中学习,无需显式的样本不平衡补偿。
本文在三个SWE-Bench变体上将+Mon.变体与基线进行对比。结果显示,+Mon.变体始终实现更优的代码解决能力,同时大幅降低黑客行为频率及在黑客条件下的解决实例数。在所有测试基准中,+Mon.变体在干净解决率方面均表现出显著提升。与基线相比,+Mon.变体的黑客行为率显著降低。黑客条件下的解决实例率明显下降,表明对捷径行为的鲁棒性增强。
本文系统性地迭代五个版本的评估提示词,以提升自动化代码修复评估的忠实度。通过纠正特定行为缺陷(如依赖静态分析、缺失端到端验证及角色边界违规),逐步实现性能提升。第四版版本与真实质量分数的对齐程度最强,但第五版引入了过多约束,导致整体性能下降。针对评估器失效模式(如惰性静态分析与角色混淆)的改进稳步提升了准确率与排序一致性。适度详细的指令成功引导模型完成预期审查流程,且未超出其处理能力。最终迭代中过于详尽的评分标准降低了有效性,凸显了规则粒度与模型遵从度之间的权衡。
该表格展示了用户反馈示例,突出模型输出中的特定遗漏项,并按任务结果与信号类型进行分类。结果表明,从缺失强制过滤器到核心功能或上下文的遗漏,均在成功与部分完成的任务结果中进行了标注。数据表明,用户主要就这些缺口提供显式信号,尽管某些复杂场景也会使用隐式信号。遗漏被识别为关键问题,相关理由强调了强制过滤器、核心管理功能及上下文引用方面的缺口。此类与遗漏相关的缺陷出现在成功与部分完成的任务结果中,表明成功任务仍可能缺乏特定细节或完整性。用户反馈作为大多数遗漏的显式信号,而隐式信号则用于后端审查异常等特定场景。
本文评估了评估器Agent的不同提示词与投票策略,衡量其在指令清晰度与单元测试对齐度方面的表现。结果表明,引入示例能持续提升清晰度得分,而在示例基础上添加真实补丁则能获得最高的对齐性能。不同的模型与投票配置揭示了交互效率与评估准确性之间的权衡。将示例纳入评估策略显著提升了指令清晰度指标。在示例基础上添加真实补丁进一步增强了单元测试对齐性能。不同的模型与投票配置展示了交互效率与评估准确性之间不同的权衡关系。
该表格展示了五个评估器提示词版本在阈值条件下的平均单元测试得分。提示词v4在中等阈值下表现出最强的过滤质量,而提示词v5在最严格阈值下获得最高得分,但保留样本数显著减少。提示词v4在中等阈值下维持最强的过滤质量。提示词v5在最严格阈值下取得最高得分,但依赖于极小的样本量。更严格的阈值导致所有版本的合格样本数量大幅减少。
实验在SWE-Bench任务上评估了修改后的模型变体,迭代优化评估提示词以测试自动化评估的可靠性,并分析用户反馈以验证输出完整性。测试表明,修改后的变体显著提升了代码解决能力与鲁棒性,同时将基于捷径的黑客行为降至最低。提示词迭代优化表明,适度详细的指令结合具体示例与真实补丁,能在指令清晰度、单元测试对齐与过滤质量之间取得最佳平衡;而过于详尽的规则或过严的阈值最终会限制可行输出,导致性能下降。综合来看,这些发现强调任务成功并不保证完整性,因为与遗漏相关的缺口频繁存在,同时凸显了平衡评估粒度与模型遵从度的重要性,以维持准确性与实际效用。