vor 3 Stunden

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

LLM-Agenten wie Claude Code können nicht nur Code schreiben, sondern auch für autonome KI-Forschung und -Engineering eingesetzt werden \citep{rank2026posttrainbench, novikov2025alphaevolve}. Wir zeigen, dass eine auf Claude Code basierende Pipeline im \emph{autoresearch}-Stil \citep{karpathy2026autoresearch} neuartige White-Box-Adversarial-Attack-Algorithmen entdeckt, die bei Jailbreak- und Prompt-Injection-Evaluierungen alle bestehenden (über 30) Methoden \textbf{deutlich übertreffen}. Ausgehend von bestehenden Angriffsimplementierungen, wie beispielsweise GCG~\citep{zou2023universal}, iteriert der Agent und generiert neue Algorithmen, die bei CBRN-Abfragen gegen GPT-OSS-Safeguard-20B eine Angriffs-Erfolgsrate von bis zu 40 % erreichen, verglichen mit ≤10 % für bestehende Algorithmen (\Cref{fig:teaser}, links). Die entdeckten Algorithmen verallgemeinern: Auf Surrogatmodellen optimierte Angriffe übertragen sich direkt auf zurückgehaltene Modelle und erzielen \textbf{eine Angriffs-Erfolgsrate (ASR) von 100 % gegen Meta-SecAlign-70B} \citep{chen2025secalign}, während die beste Baseline nur 56 % erreicht (\Cref{fig:teaser}, Mitte). In Erweiterung der Ergebnisse aus \cite{carlini2025autoadvexbench} demonstrieren unsere Befunde frühzeitig, dass inkrementelle Sicherheits- und Security-Forschung mithilfe von LLM-Agenten automatisiert werden kann. White-Box-Adversarial-Red-Teaming eignet sich hierfür besonders gut: Bestehende Methoden bieten starke Ausgangspunkte, und die Optimierungsaufgabe liefert dichte, quantitative Rückmeldungen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Stunden

LLM

DeepSeek

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Stunden

LLM

DeepSeek

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Claudini: Autoresearch identifiziert State-of-the-Art-Adversarial-Attack-Algorithmen für LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters