Command Palette
Search for a command to run...
Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs
Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs
Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko
Zusammenfassung
LLM-Agenten wie Claude Code können nicht nur Code schreiben, sondern auch für autonome KI-Forschung und -Engineering eingesetzt werden \citep{rank2026posttrainbench, novikov2025alphaevolve}. Wir zeigen, dass eine auf Claude Code basierende Pipeline im \emph{autoresearch}-Stil \citep{karpathy2026autoresearch} neuartige White-Box-Adversarial-Attack-Algorithmen entdeckt, die bei Jailbreak- und Prompt-Injection-Evaluierungen alle bestehenden (über 30) Methoden \textbf{deutlich übertreffen}. Ausgehend von bestehenden Angriffsimplementierungen, wie beispielsweise GCG~\citep{zou2023universal}, iteriert der Agent und generiert neue Algorithmen, die bei CBRN-Abfragen gegen GPT-OSS-Safeguard-20B eine Angriffs-Erfolgsrate von bis zu 40 % erreichen, verglichen mit ≤10 % für bestehende Algorithmen (\Cref{fig:teaser}, links). Die entdeckten Algorithmen verallgemeinern: Auf Surrogatmodellen optimierte Angriffe übertragen sich direkt auf zurückgehaltene Modelle und erzielen \textbf{eine Angriffs-Erfolgsrate (ASR) von 100 % gegen Meta-SecAlign-70B} \citep{chen2025secalign}, während die beste Baseline nur 56 % erreicht (\Cref{fig:teaser}, Mitte). In Erweiterung der Ergebnisse aus \cite{carlini2025autoadvexbench} demonstrieren unsere Befunde frühzeitig, dass inkrementelle Sicherheits- und Security-Forschung mithilfe von LLM-Agenten automatisiert werden kann. White-Box-Adversarial-Red-Teaming eignet sich hierfür besonders gut: Bestehende Methoden bieten starke Ausgangspunkte, und die Optimierungsaufgabe liefert dichte, quantitative Rückmeldungen.