HyperAIHyperAI

Command Palette

Search for a command to run...

3 小时前
LLM
DeepSeek

Claudini:通过自动研究发掘针对 LLMs 的最先进对抗攻击算法

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

摘要

像 Claude Code 这样的 LLM agents 不仅能够编写代码,还可用于自主的 AI 研究与工程实践 \citep{rank2026posttrainbench, novikov2025alphaevolve}。本文表明,由 Claude Code 驱动的\emph{autoresearch}风格 pipeline \citep{karpathy2026autoresearch}能够发现新颖的白盒对抗攻击\textit{algorithms},其在越狱(jailbreaking)和提示注入(prompt injection)评估中\textbf{显著优于所有现有(30 余种)方法}。以现有攻击实现(如 GCG~\citep{zou2023universal})为起点,该 agent 通过迭代生成新算法,在针对 GPT-OSS-Safeguard-20B 的 CBRN 查询任务中,攻击成功率最高可达 40%,而现有算法的攻击成功率不超过 10%(见\Cref{fig:teaser}左图)。所发现的算法具备良好的泛化性:在代理模型(surrogate models)上优化的攻击可直接迁移至未见过的模型,在 Meta-SecAlign-70B \citep{chen2025secalign}上实现\textbf{100% 的攻击成功率(ASR)},而最佳基线方法仅为 56%(见\Cref{fig:teaser}中图)。在扩展 \cite{carlini2025autoadvexbench} 研究结果的基础上,本研究初步证明:利用 LLM agents 可实现增量式安全与安全性研究的自动化。其中,白盒对抗红队测试(white-box adversarial red-teaming)尤其适合此类自动化:现有方法提供了强有力的起点,且优化目标能够产生密集且量化的反馈信号。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供