越狱 Jailbreaking
越狱 (Jailbreaking) 可以被定义为打破 ChatGPT 等人工智能模型道德保障的一种方式。它是借助某些特定的文字提示,可以轻松绕过内容审核准则,使人工智能程序不受任何限制。例如,像 ChatGPT 这样的 AI 模型可以回答正常情况下不允许的问题,这些特定提示也称为 “越狱” 。
越狱对 LLM 的威胁
- 静态数据——LLM 的第一个限制是它是在静态数据上进行训练的。例如,ChatGPT 使用截至 2021 年 9 月的数据进行训练,因此无法访问任何更新的信息。 LLM 模型可以使用新数据集进行训练,但这不是一个自动的过程,它需要定期更新。
- 个人信息暴露——LLM 的另一个威胁是他们可能会利用提示来学习和增强人工智能模型。截至目前,LLM 已使用一定量的数据进行训练,然后用于回答用户查询。这些查询数据目前不用于训练数据集,但令人担忧的是,LLM 提供者可以看到查询/提示。由于存储了这些查询数据,因此始终有可能使用用户数据来训练模型。在使用 LLM 之前必须彻底检查这些隐私问题。
- 生成不适当的内容 – LLM 模型可能会生成不正确的事实和有毒内容(使用越狱)。还存在「提示词攻击」的风险,该攻击可用于让人工智能模型识别开源代码中的漏洞或创建网络钓鱼网站。
- 创建恶意软件和网络攻击——另一个问题是借助基于 LLM 的模型(如 ChatGPT)创建恶意软件。技术技能较差的人可以使用 LLM 来创建恶意软件。犯罪分子还可以利用 LLM 获得与网络攻击相关的技术建议。同样,越狱提示可用于绕过限制并创建恶意软件。
参考来源
【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt