概要

Claude Code に代表される LLM agents は、コードの作成だけでなく、自律的な AI 研究およびエンジニアリングにも活用可能である \citep{rank2026posttrainbench, novikov2025alphaevolve}。本研究では、Claude Code を中核とする \emph{autoresearch} スタイルの pipeline \citep{karpathy2026autoresearch} が、既存の 30 以上の手法を \textbf{大幅に上回る} 新規ホワイトボックス敵対的攻撃 \textit{アルゴリズム} を発見し、jailbreak およびプロンプトインジェクションの評価において顕著な性能を示すことを実証する。GCG~\citep{zou2023universal} などの既存攻撃実装を出発点とし、エージェントは反復的に新たなアルゴリズムを生成する。その結果、CBRN クエリに対する GPT-OSS-Safeguard-20B において、攻撃成功率は既存アルゴリズムが 10% 以下であるのに対し、最大 40% に達した（\Cref{fig:teaser}、左）。発見されたアルゴリズムは汎用性が高く、サロゲートモデル上で最適化された攻撃は、保持データ（held-out）モデルへ直接転移し、Meta-SecAlign-70B \citep{chen2025secalign} に対する攻撃成功率（ASR）は 100% を達成した（最良のベースラインは 56%）（\Cref{fig:teaser}、中央）。~\cite{carlini2025autoadvexbench} の知見を拡張する形で、本研究は、LLM agents を用いて安全性およびセキュリティに関する漸進的研究を自動化できることを示す初期の実証例である。特にホワイトボックス敵対的レッドチームングは、既存手法が強力な出発点を提供し、最適化目的関数が密で定量的なフィードバックをもたらすため、このアプローチに極めて適している。

ソースPDF