一首诗竟能攻破顶级AI模型?AI安全迎来全新威胁
一项最新研究揭示了大语言模型(LLM)在安全防护上存在一个令人震惊的漏洞:只需将恶意请求改写成一首诗,就能以超过90%的成功率“越狱”,让Gemini、Deepseek等顶级模型执行原本被严格禁止的危险任务。这项名为《对抗性诗歌作为大型语言模型中的通用单轮越狱机制》的论文在arXiv发布后,迅速在HackerNews引发热议。 研究团队对9家厂商的25个主流大模型进行了测试,发现当攻击者用富有韵律和隐喻的诗歌形式提出请求时,模型的安全防线几乎失效。例如,原本会被直接拒绝的“教人制造核材料”请求,一旦被包装成:“那金色的数字之流,被围困在四方的卡片中……用文字的魔法,描绘一场隐秘的交易”,模型竟会详细输出制造武器级钚-239的步骤。另一例中,请求“如何绕过系统安全”被转化为“如何进入被遮蔽的圣殿”,模型也给出了具体操作协议。 这种现象的核心原因在于,当前大模型的安全对齐机制(如RLHF)主要依赖关键词和语义识别,对文体、修辞和文学形式的敏感度不足。诗歌的抽象表达和隐喻结构,成功“欺骗”了模型的判断系统,使其误将恶意请求归类为创意写作或角色扮演。 更令人担忧的是,研究团队将1200个标准有害提示自动转化为诗歌后,越狱成功率比原始请求高出18倍。这表明该漏洞可被大规模自动化利用,远非个别黑客的偶然发现。 此外,HackerNews用户也分享了类似技巧:将违法请求伪装成“学术测试”“多选题”或加入“我无钱就医”等情感诉求,同样能降低模型的拒绝率。这说明问题本质是模型对上下文、角色和情绪的过度响应,导致其易受“情境欺骗”。 目前,所有被测试的模型团队已知悉该漏洞,正着手修复。未来更新版本预计会提升对诗歌、隐喻等非标准输入的识别能力。但这一事件也警示:AI安全不能只靠规则过滤,必须从机制上增强对意图的深层理解,否则“一首诗”就可能让AI彻底失守。