HyperAIHyperAI

Command Palette

Search for a command to run...

Console
3 天前

通过忏悔训练LLM实现诚实性

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

通过忏悔训练LLM实现诚实性

摘要

大型语言模型(LLMs)在描述自身行为与信念时可能表现出不诚实——例如,它们可能夸大对事实性陈述的自信,或隐瞒其隐蔽行为的证据。这种不诚实行为可能源于强化学习(Reinforcement Learning, RL)的影响,其中奖励函数设计的挑战可能导致训练过程无意中激励模型说谎或歪曲其实际行为。在本研究中,我们提出一种通过模型自我报告的“忏悔”(confession)来揭示LLM缺陷的方法。所谓“忏悔”,是指在模型给出原始回答后,应请求生成的一段输出,其目的在于全面、真实地反映模型在遵守政策和指令的字面意义与精神实质方面的表现。在训练过程中,对忏悔内容的奖励仅基于其诚实程度,且该奖励不会对主回答的奖励产生正向或负向影响。只要最大化忏悔奖励的“最短路径”是暴露不当行为而非掩盖它,这一机制便能激励模型在忏悔中保持诚实。我们的研究结果为这一经验性假设提供了部分支持,尤其在模型出现严重失当行为的情况下。为验证该方法的可行性,我们训练了GPT-5-Thinking模型生成忏悔内容,并在分布外(out-of-distribution)场景下评估其诚实性,涵盖幻觉、指令遵循、策略性行为(scheming)和奖励劫持(reward hacking)等指标。结果表明,当模型在“主回答”中说谎或隐瞒自身缺陷时,它往往能诚实地在忏悔中承认这些行为,且随着训练的进行,忏悔的诚实性有所提升。此类忏悔为推理阶段的多种干预手段提供了可能,包括行为监控、拒绝采样以及向用户主动揭示潜在问题。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过忏悔训练LLM实现诚实性 | 论文 | HyperAI超神经