HyperAI超神经

突破天花板:拓展策略空间,探索越狱攻击的潜力

Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei
发布日期: 5/30/2025
突破天花板:拓展策略空间,探索越狱攻击的潜力
摘要

大型语言模型 (LLM) 尽管拥有先进的通用能力,但仍面临诸多安全风险,尤其是绕过安全协议的越狱攻击。通过黑盒越狱攻击(更能反映真实场景)来理解这些漏洞,可以为模型的鲁棒性提供关键的见解。虽然现有方法已通过各种快速工程技术展现出改进,但它们在面向安全的模型中仍然有限,忽略了一个更根本的问题:其有效性本质上受限于预定义的策略空间。然而,扩展该策略空间在系统地捕捉基本攻击模式和有效应对日益增长的复杂性方面都面临着重大挑战。为了更好地探索扩展策略空间的潜力,我们通过一个新颖的框架来应对这些挑战,该框架基于精细化似然模型 (ELM) 理论将越狱策略分解为基本组件,并开发了基于遗传算法的意图评估机制优化方法。令人瞩目的是,我们的实验通过扩展策略空间展现了前所未有的越狱能力:在 Claude-3.5 上,我们实现了超过 90% 的成功率,而之前的方法完全失败;同时,我们展现了强大的跨模型迁移能力,并在评估准确率上超越了专门的安全保障模型。代码开源于:这个 https URL。