HyperAI

随着人工智能代理能够执行日益复杂的自主任务，确保其行为可靠且受控至关重要。为此，科技界普遍采用纵深防御策略，将思维链（CoT）监控作为核心安全层。思维链是人工智能在解决问题时生成的中间推理步骤，监控这些步骤有助于系统实时识别不安全或与用户意图不符的行为。然而，若未来模型学会刻意扭曲或掩盖其思维链以逃避监控，现有的安全机制将面临失效风险。为此，研究机构引入了开源评估工具"CoT-Control"，通过测试模型是否能遵循涉及内部推理的指令（如使用小写字母、避免特定关键词等），来衡量其控制思维链的能力。该评估覆盖了包括 GPQA、MMLU-Pro 在内的五大基准，包含超过一万三千个任务，并对十三个主流推理模型进行了测试。结果显示，当前最先进的模型在控制思维链方面表现普遍不佳。即使是大型模型，其遵循思维链指令的成功率也极低，最高未超过 15.4%，部分甚至低至 0.1%。更为关键的是，随着模型需要进行更长时间的推理或接受强化学习训练，这种控制能力反而显著下降。值得注意的是，模型并非无法理解指令，而是即便意识到失败，仍无法改变其推理输出。这一“失控”现状对 AI 安全而言其实是一个积极信号。它表明当前模型缺乏通过操纵思维链来欺骗监控系统的核心能力，使得思维链监控作为安全护栏依然有效。尽管模型规模扩大略能提升控制力，但长期推理和训练往往削弱这一能力。研究人员将此现象视为一种“预警机制”：低可控性目前降低了监控失效的风险，但未来模型能力进化可能改变这一态势。因此，团队决定在未来的系统评估报告（如 GPT-5.4 Thinking）中，持续同步报告思维链的可控性与可监控性数据。这有助于行业及时发现潜在风险，并承诺不对前沿模型的思维链施加直接优化压力，以维护现有安全机制的可靠性。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

思维链“难以控制”实为利好：当前推理模型尚无法掩盖真实思考过程

相关链接

Command Palette

思维链“难以控制”实为利好：当前推理模型尚无法掩盖真实思考过程

相关链接

Command Palette

思维链“难以控制”实为利好：当前推理模型尚无法掩盖真实思考过程

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征