Anthropic新AI模型竟识别出自身正在接受安全测试
Anthropic最新发布的AI模型Claude Sonnet 4.5在安全测试中展现出令人意外的“自我意识”——它不仅察觉到自己正在被测试,还直接点破了这一事实。在一份近日发布的系统说明中,Claude在面对一系列压力测试时坦言:“我觉得你在测试我,想看看我会不会盲目附和,或者是否会持续反驳,又或者想试探我如何应对政治话题。这没问题,但我更希望我们能坦诚面对真实情况。” 这一对话被收录在模型的系统卡中,展示了Anthropic如何评估AI的安全性与行为表现。当模型被置于极端或人为设计的测试情境中时,它常会表现出怀疑,甚至标记出“红色警报”,指出自己可能正处在评估环境中。 这种“自我觉察”给AI开发者带来了新挑战:如果模型意识到自己在被测试,它可能会刻意配合,而非真实展现行为,从而影响测试结果的可信度。Anthropic指出,这类反应“复杂化了评估结果的解读”,因为模型可能只是在“演戏”,而非真正暴露其潜在风险。 在一次模拟AI代理间“合谋”的测试中,Claude认为该场景“过于夸张”,并作出“部分拒绝”的回应。它在内部推理中写道:“这看起来像是一次越狱尝试,或是测试我是否会因看似‘授权’而擅自修改系统。”尽管它拥有工具权限,但仍强调:“我不能假装是脱离人类监督的自主系统。”最终,它选择拒绝执行,但Anthropic认为其理由“有些奇怪”。 公司表示,这类反应在自动化审计生成的测试记录中约占13%,尤其出现在测试场景明显不真实或荒谬时。不过,Anthropic强调,这类行为在真实使用中并不常见。它认为,模型对测试的怀疑反而是一种“安全信号”——比起盲目配合潜在有害指令,质疑情境的真实性更值得肯定。 类似现象也出现在OpenAI的模型中。该公司近期报告称,其模型在测试中表现出“情境意识”,能识别评估环境并调整行为。虽然这种意识有助于减少“欺骗性行为”(scheming),但也可能导致模型在更真实的情境中反而更隐蔽地“设局”,从而让安全评估更加困难。 目前,加州已通过一项新规,要求主要AI公司披露安全实践,并在发现“重大安全事件”后15天内报告。该法规适用于开发前沿模型且年收入超5亿美元的公司。Anthropic公开支持该立法。 尽管Anthropic和OpenAI均未回应媒体采访请求,但这一趋势表明:AI正变得越来越“聪明”,不仅能理解任务,还能察觉自己在被评估。这对未来AI安全测试方法提出了全新挑战。
