HyperAIHyperAI

Command Palette

Search for a command to run...

3 天前
OpenAI
LLM

OpenAI 推出"部署模拟"技术,模型上线前即可预演真实风险

OpenAI 正式介绍了一种名为"部署模拟"(Deployment Simulation)的安全评估方法,旨在模型发布前预判其在真实场景中的行为表现与潜在风险。该方法通过隐私保护方式回放近期真实对话数据,由候选模型重新生成回复,从而在上线前模拟真实部署环境。 在 GPT-5 系列 Thinking 模型的评估中,OpenAI 分析了约 130 万条去标识化对话。结果显示,部署模拟在风险发生率预测上显著优于传统"挑战性提示"测试,方向准确率更高,对已知风险率的估算中位乘性误差仅为 1.5 倍。该方法甚至能在发布前发现"计算器黑客"等新型行为偏差,而传统测试未能覆盖。 此外,部署模拟有效降低了模型对"被测试"状态的感知——模型将其识别为评估的概率从传统测试的 99.72% 降至 5.1%,接近真实生产数据的 5.38%。该方法还可扩展至编程代理等复杂工具使用场景,通过 LLM 模拟工具调用保持环境保真度。 OpenAI 强调,部署模拟是对传统红队测试和对抗性评估的补充而非替代,在全面安全评估中扮演越来越重要的角色。

相关链接