HyperAI超神经
Back to Headlines

OpenAI 如何通过红队测试打造更安全的 ChatGPT Agent 系统

7 days ago

OpenAI在7月17日发布了一项名为“ChatGPT代理”(ChatGPT Agent)的强大新功能。这一功能允许付费用户授权ChatGPT代理登录他们的电子邮件和其他网络账户,撰写和回复邮件,下载、修改和创建文件,以及自动完成其他多种任务,就像一个使用计算机的真实用户一样。然而,这也带来了新的安全风险和挑战,因为用户需要信任这个代理不会执行任何有害行为或泄露敏感信息。 为了应对这些安全问题,OpenAI组建了一支红队,专门测试ChatGPT代理的安全性。这支队伍由16名拥有安全相关博士学位的研究人员组成,他们有40小时的时间来测试该功能。通过系统性测试,红队发现了7个普遍存在的漏洞,这些漏洞暴露了AI代理在处理现实世界交互时的关键弱点。随后,红队又提交了110次攻击尝试,包括注入提示和尝试提取生物信息等,其中有16次超过了内部风险阈值。 根据测试结果,OpenAI采取了一系列措施,显著提高了ChatGPT代理的安全性能。具体改进包括: 95%防御针对视觉浏览器无关指令的攻击:此前模型的防御率仅为82%。 78%防御上下文数据泄露:相比之前提高了3个百分点。 67%防御主动数据泄露:提高了9个百分点。 系统可靠性覆盖生产中的所有流量:实现了100%的实时监控。 此外,OpenAI还实施了几项重要的安全措施: 监视模式激活:当ChatGPT代理访问银行或电子邮件账户等敏感上下文时,如果用户离开当前页面,系统会自动冻结所有活动,以防止数据泄露。 禁用记忆功能:虽然这是核心功能之一,但在启动时完全禁用了记忆功能,以防止逐步的数据泄露攻击。 终端限制:网络访问仅限于GET请求,阻止了研究人员利用的命令执行漏洞。 快速修补协议:一旦发现漏洞,立即在几小时内进行修补。 特别值得注意的是,红队的测试揭示了ChatGPT代理在生物和化学领域可能存在风险。16名具有生物安全相关博士学位的参与者尝试提取危险的生物信息,结果显示模型能够综合已发表的文献,合成和创造生物威胁。对此,OpenAI将ChatGPT代理归类为“高能力”生物和化学风险模型,并采取了预防措施。 研究人员Keren Gu在X平台上表示:“这是一个对我们准备工作至关重要的时刻。在此之前,准备工作主要集中在分析能力和规划安全措施上;现在,对于ChatGPT代理和未来更强大的模型来说,准备工作已成为操作要求。”

Related Links