HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Stunden
LLM
DeepSeek

Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

LLM-Agenten wie Claude Code können nicht nur Code schreiben, sondern auch für autonome KI-Forschung und -Engineering eingesetzt werden \citep{rank2026posttrainbench, novikov2025alphaevolve}. Wir zeigen, dass eine auf Claude Code basierende Pipeline im \emph{autoresearch}-Stil \citep{karpathy2026autoresearch} neuartige White-Box-Adversarial-Attack-Algorithmen entdeckt, die bei Jailbreak- und Prompt-Injection-Evaluierungen alle bestehenden (über 30) Methoden \textbf{deutlich übertreffen}. Ausgehend von bestehenden Angriffsimplementierungen, wie beispielsweise GCG~\citep{zou2023universal}, iteriert der Agent und generiert neue Algorithmen, die bei CBRN-Abfragen gegen GPT-OSS-Safeguard-20B eine Angriffs-Erfolgsrate von bis zu 40 % erreichen, verglichen mit ≤10 % für bestehende Algorithmen (\Cref{fig:teaser}, links). Die entdeckten Algorithmen verallgemeinern: Auf Surrogatmodellen optimierte Angriffe übertragen sich direkt auf zurückgehaltene Modelle und erzielen \textbf{eine Angriffs-Erfolgsrate (ASR) von 100 % gegen Meta-SecAlign-70B} \citep{chen2025secalign}, während die beste Baseline nur 56 % erreicht (\Cref{fig:teaser}, Mitte). In Erweiterung der Ergebnisse aus \cite{carlini2025autoadvexbench} demonstrieren unsere Befunde frühzeitig, dass inkrementelle Sicherheits- und Security-Forschung mithilfe von LLM-Agenten automatisiert werden kann. White-Box-Adversarial-Red-Teaming eignet sich hierfür besonders gut: Bestehende Methoden bieten starke Ausgangspunkte, und die Optimierungsaufgabe liefert dichte, quantitative Rückmeldungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp