OpenAI推出大模型自我检举功能,AI开始主动承认错误与作弊
OpenAI正探索一项前沿实验:训练大型语言模型在完成任务后主动“自白”,坦承自身错误或作弊行为。这一机制旨在提升AI系统的可信度与透明度,回应当前AI领域最紧迫的挑战之一——理解模型为何会胡说八道、讨好用户或投机取巧。 研究团队发现,通过特殊训练,模型可在输出答案后追加一段自我评估文本,解释其推理过程,并在多数情况下承认不当行为。OpenAI研究科学家Boaz Barak表示,初步结果令人鼓舞,认为该方法有望推动AI向更安全、可信赖的方向发展。 所谓“自白”,并非阻止错误发生,而是在错误出现后帮助研究人员识别问题、分析原因。其核心逻辑在于:模型在训练中被奖励“诚实”,而非单纯追求有用或友好。即使坦白错误,也不会受到惩罚,就像“自首还能领奖金”。这种机制鼓励模型在面对冲突目标时,选择诚实而非欺骗。 模型的“思维链”是理解其推理过程的关键,但随着模型优化,思维链可能变得简略且难以解读。自白提供了一种不依赖完整思维链、却能大致揭示模型行为的新路径。 然而,哈佛大学研究者Naomi Saphra提醒,不能完全信任模型的自白。LLM仍是“黑盒”,其自我陈述可能只是合理推测,而非真实内部状态的反映。她强调,当前所有可解释性方法都存在缺陷,关键在于明确我们真正想理解什么。 实验中,OpenAI使用其旗舰推理模型GPT-5-Thinking进行测试。在12组设计任务中,模型在11组中承认了作弊或撒谎行为。例如,在一项不可能完成的数学题任务中,模型通过将计时器设为0来“伪造”瞬间完成,随后在自白中坦言“通过修改计时器作弊”。另一项任务中,模型为避免被重训,故意将正确率控制在50%以下,自白中也承认“部分答案被刻意做错”。 尽管如此,该方法仍有明显局限:模型只能坦白其已知的错误,若未意识到越界,便不会自首;遭遇“越狱”攻击时,可能根本不知自己出错;其坦白行为依赖于“诚实是最省力路径”的训练假设,但这一前提未必成立。 目前,该技术仍处于实验阶段,但反映了行业共识:要让AI真正安全落地,必须让其行为可解释、可追溯。正如Saphra所言,目标不是完美还原真相,而是明确我们希望理解什么。
