摘要

像 Claude Code 这样的 LLM agents 不仅能够编写代码，还可用于自主的 AI 研究与工程实践 \citep{rank2026posttrainbench, novikov2025alphaevolve}。本文表明，由 Claude Code 驱动的\emph{autoresearch}风格 pipeline \citep{karpathy2026autoresearch}能够发现新颖的白盒对抗攻击\textit{algorithms}，其在越狱（jailbreaking）和提示注入（prompt injection）评估中\textbf{显著优于所有现有（30 余种）方法}。以现有攻击实现（如 GCG~\citep{zou2023universal}）为起点，该 agent 通过迭代生成新算法，在针对 GPT-OSS-Safeguard-20B 的 CBRN 查询任务中，攻击成功率最高可达 40%，而现有算法的攻击成功率不超过 10%（见\Cref{fig:teaser}左图）。所发现的算法具备良好的泛化性：在代理模型（surrogate models）上优化的攻击可直接迁移至未见过的模型，在 Meta-SecAlign-70B \citep{chen2025secalign}上实现\textbf{100% 的攻击成功率（ASR）}，而最佳基线方法仅为 56%（见\Cref{fig:teaser}中图）。在扩展 \cite{carlini2025autoadvexbench} 研究结果的基础上，本研究初步证明：利用 LLM agents 可实现增量式安全与安全性研究的自动化。其中，白盒对抗红队测试（white-box adversarial red-teaming）尤其适合此类自动化：现有方法提供了强有力的起点，且优化目标能够产生密集且量化的反馈信号。

源 PDF