HyperAI超神经

OpenAI在7月17日发布了一项名为“ChatGPT代理”（ChatGPT Agent）的强大新功能。这一功能允许付费用户授权ChatGPT代理登录他们的电子邮件和其他网络账户，撰写和回复邮件，下载、修改和创建文件，以及自动完成其他多种任务，就像一个使用计算机的真实用户一样。然而，这也带来了新的安全风险和挑战，因为用户需要信任这个代理不会执行任何有害行为或泄露敏感信息。为了应对这些安全问题，OpenAI组建了一支红队，专门测试ChatGPT代理的安全性。这支队伍由16名拥有安全相关博士学位的研究人员组成，他们有40小时的时间来测试该功能。通过系统性测试，红队发现了7个普遍存在的漏洞，这些漏洞暴露了AI代理在处理现实世界交互时的关键弱点。随后，红队又提交了110次攻击尝试，包括注入提示和尝试提取生物信息等，其中有16次超过了内部风险阈值。根据测试结果，OpenAI采取了一系列措施，显著提高了ChatGPT代理的安全性能。具体改进包括： 95%防御针对视觉浏览器无关指令的攻击：此前模型的防御率仅为82%。 78%防御上下文数据泄露：相比之前提高了3个百分点。 67%防御主动数据泄露：提高了9个百分点。系统可靠性覆盖生产中的所有流量：实现了100%的实时监控。此外，OpenAI还实施了几项重要的安全措施：监视模式激活：当ChatGPT代理访问银行或电子邮件账户等敏感上下文时，如果用户离开当前页面，系统会自动冻结所有活动，以防止数据泄露。禁用记忆功能：虽然这是核心功能之一，但在启动时完全禁用了记忆功能，以防止逐步的数据泄露攻击。终端限制：网络访问仅限于GET请求，阻止了研究人员利用的命令执行漏洞。快速修补协议：一旦发现漏洞，立即在几小时内进行修补。特别值得注意的是，红队的测试揭示了ChatGPT代理在生物和化学领域可能存在风险。16名具有生物安全相关博士学位的参与者尝试提取危险的生物信息，结果显示模型能够综合已发表的文献，合成和创造生物威胁。对此，OpenAI将ChatGPT代理归类为“高能力”生物和化学风险模型，并采取了预防措施。研究人员Keren Gu在X平台上表示：“这是一个对我们准备工作至关重要的时刻。在此之前，准备工作主要集中在分析能力和规划安全措施上；现在，对于ChatGPT代理和未来更强大的模型来说，准备工作已成为操作要求。”

OpenAI 如何通过红队测试打造更安全的 ChatGPT Agent 系统

Related Links