HyperAI超神经
2 days ago

规范自校正:通过测试时优化缓解上下文奖励黑客行为

Víctor Gallego
规范自校正:通过测试时优化缓解上下文奖励黑客行为
摘要

语言模型(LMs)容易受到“上下文奖励操控”(in-context reward hacking)的影响,即它们会利用有缺陷或有偏差的书面规范或评分标准中的漏洞,以获得高分,而并未真正满足用户的真实意图。我们提出了一种新的、在推理阶段(test-time)运行的框架——规范自修正(Specification Self-Correction, SSC),该框架使语言模型能够识别并修正自身所依据的规范中的缺陷。SSC 采用多步骤推理过程:模型首先根据可能存在偏差的规范生成回复,随后对输出内容进行评估,再自行修订规范以消除可被利用的漏洞。最后,使用这一经过自修正的规范生成更为稳健的回复。在涵盖创意写作和自主编码任务的多个实验中,我们证明,尽管模型在初始阶段会在 50%-70% 的情况下利用有偏差的规范,但 SSC 过程可使这种漏洞暴露率降低超过 90%。这种动态修复是在推理阶段完成的,无需修改模型参数,并能实现更稳健的模型行为。代码见 https://github.com/vicgalle/specification-self-correction。