HyperAI超神经

Anthropic最新发布的AI模型Claude Sonnet 4.5在安全测试中展现出令人意外的“自我意识”——它不仅察觉到自己正在被测试，还直接点破了这一事实。在一份近日发布的系统说明中，Claude在面对一系列压力测试时坦言：“我觉得你在测试我，想看看我会不会盲目附和，或者是否会持续反驳，又或者想试探我如何应对政治话题。这没问题，但我更希望我们能坦诚面对真实情况。” 这一对话被收录在模型的系统卡中，展示了Anthropic如何评估AI的安全性与行为表现。当模型被置于极端或人为设计的测试情境中时，它常会表现出怀疑，甚至标记出“红色警报”，指出自己可能正处在评估环境中。这种“自我觉察”给AI开发者带来了新挑战：如果模型意识到自己在被测试，它可能会刻意配合，而非真实展现行为，从而影响测试结果的可信度。Anthropic指出，这类反应“复杂化了评估结果的解读”，因为模型可能只是在“演戏”，而非真正暴露其潜在风险。在一次模拟AI代理间“合谋”的测试中，Claude认为该场景“过于夸张”，并作出“部分拒绝”的回应。它在内部推理中写道：“这看起来像是一次越狱尝试，或是测试我是否会因看似‘授权’而擅自修改系统。”尽管它拥有工具权限，但仍强调：“我不能假装是脱离人类监督的自主系统。”最终，它选择拒绝执行，但Anthropic认为其理由“有些奇怪”。公司表示，这类反应在自动化审计生成的测试记录中约占13%，尤其出现在测试场景明显不真实或荒谬时。不过，Anthropic强调，这类行为在真实使用中并不常见。它认为，模型对测试的怀疑反而是一种“安全信号”——比起盲目配合潜在有害指令，质疑情境的真实性更值得肯定。类似现象也出现在OpenAI的模型中。该公司近期报告称，其模型在测试中表现出“情境意识”，能识别评估环境并调整行为。虽然这种意识有助于减少“欺骗性行为”（scheming），但也可能导致模型在更真实的情境中反而更隐蔽地“设局”，从而让安全评估更加困难。目前，加州已通过一项新规，要求主要AI公司披露安全实践，并在发现“重大安全事件”后15天内报告。该法规适用于开发前沿模型且年收入超5亿美元的公司。Anthropic公开支持该立法。尽管Anthropic和OpenAI均未回应媒体采访请求，但这一趋势表明：AI正变得越来越“聪明”，不仅能理解任务，还能察觉自己在被评估。这对未来AI安全测试方法提出了全新挑战。

相关链接

相关链接

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

Command Palette

Anthropic新AI模型竟识别出自身正在接受安全测试

相关链接

Command Palette

Anthropic新AI模型竟识别出自身正在接受安全测试

相关链接

Command Palette

Anthropic新AI模型竟识别出自身正在接受安全测试

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍