HyperAIHyperAI

Command Palette

Search for a command to run...

3時間前
LLM
DeepSeek

Claudini: Autoresearch が LLMs に対する最先端の敵対的攻撃アルゴリズムを発見

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

概要

Claude Code に代表される LLM agents は、コードの作成だけでなく、自律的な AI 研究およびエンジニアリングにも活用可能である \citep{rank2026posttrainbench, novikov2025alphaevolve}。本研究では、Claude Code を中核とする \emph{autoresearch} スタイルの pipeline \citep{karpathy2026autoresearch} が、既存の 30 以上の手法を \textbf{大幅に上回る} 新規ホワイトボックス敵対的攻撃 \textit{アルゴリズム} を発見し、jailbreak およびプロンプトインジェクションの評価において顕著な性能を示すことを実証する。GCG~\citep{zou2023universal} などの既存攻撃実装を出発点とし、エージェントは反復的に新たなアルゴリズムを生成する。その結果、CBRN クエリに対する GPT-OSS-Safeguard-20B において、攻撃成功率は既存アルゴリズムが 10% 以下であるのに対し、最大 40% に達した(\Cref{fig:teaser}、左)。発見されたアルゴリズムは汎用性が高く、サロゲートモデル上で最適化された攻撃は、保持データ(held-out)モデルへ直接転移し、Meta-SecAlign-70B \citep{chen2025secalign} に対する攻撃成功率(ASR)は 100% を達成した(最良のベースラインは 56%)(\Cref{fig:teaser}、中央)。~\cite{carlini2025autoadvexbench} の知見を拡張する形で、本研究は、LLM agents を用いて安全性およびセキュリティに関する漸進的研究を自動化できることを示す初期の実証例である。特にホワイトボックス敵対的レッドチームングは、既存手法が強力な出発点を提供し、最適化目的関数が密で定量的なフィードバックをもたらすため、このアプローチに極めて適している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Claudini: Autoresearch が LLMs に対する最先端の敵対的攻撃アルゴリズムを発見 | 記事 | HyperAI超神経