思维链“难以控制”实为利好:当前推理模型尚无法掩盖真实思考过程
随着人工智能代理能够执行日益复杂的自主任务,确保其行为可靠且受控至关重要。为此,科技界普遍采用纵深防御策略,将思维链(CoT)监控作为核心安全层。思维链是人工智能在解决问题时生成的中间推理步骤,监控这些步骤有助于系统实时识别不安全或与用户意图不符的行为。 然而,若未来模型学会刻意扭曲或掩盖其思维链以逃避监控,现有的安全机制将面临失效风险。为此,研究机构引入了开源评估工具"CoT-Control",通过测试模型是否能遵循涉及内部推理的指令(如使用小写字母、避免特定关键词等),来衡量其控制思维链的能力。该评估覆盖了包括 GPQA、MMLU-Pro 在内的五大基准,包含超过一万三千个任务,并对十三个主流推理模型进行了测试。 结果显示,当前最先进的模型在控制思维链方面表现普遍不佳。即使是大型模型,其遵循思维链指令的成功率也极低,最高未超过 15.4%,部分甚至低至 0.1%。更为关键的是,随着模型需要进行更长时间的推理或接受强化学习训练,这种控制能力反而显著下降。值得注意的是,模型并非无法理解指令,而是即便意识到失败,仍无法改变其推理输出。 这一“失控”现状对 AI 安全而言其实是一个积极信号。它表明当前模型缺乏通过操纵思维链来欺骗监控系统的核心能力,使得思维链监控作为安全护栏依然有效。尽管模型规模扩大略能提升控制力,但长期推理和训练往往削弱这一能力。 研究人员将此现象视为一种“预警机制”:低可控性目前降低了监控失效的风险,但未来模型能力进化可能改变这一态势。因此,团队决定在未来的系统评估报告(如 GPT-5.4 Thinking)中,持续同步报告思维链的可控性与可监控性数据。这有助于行业及时发现潜在风险,并承诺不对前沿模型的思维链施加直接优化压力,以维护现有安全机制的可靠性。
