Command Palette
Search for a command to run...
Claudini : Autoresearch identifie des algorithmes d'attaque adversariale de pointe pour les LLMs
Claudini : Autoresearch identifie des algorithmes d'attaque adversariale de pointe pour les LLMs
Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko
Résumé
Les agents LLM tels que Claude Code ne se limitent pas à la génération de code ; ils peuvent également être déployés pour mener des recherches et des activités d'ingénierie en intelligence artificielle de manière autonome \citep{rank2026posttrainbench, novikov2025alphaevolve}. Nous démontrons qu'un pipeline de type \emph{autoresearch} \citep{karpathy2026autoresearch}, propulsé par Claude Code, découvre de nouveaux \textit{algorithmes} d'attaques adverses en boîte blanche qui \textbf{surpassent nettement l'ensemble des méthodes existantes (plus de 30)} dans les évaluations de contournement de sécurité (jailbreaking) et d'injection de prompt. À partir d'implémentations d'attaques existantes, telles que GCG~\citep{zou2023universal}, l'agent itère pour générer de nouveaux algorithmes atteignant un taux de succès d'attaque (ASR) allant jusqu'à 40 % sur des requêtes CBRN ciblant le modèle GPT-OSS-Safeguard-20B, contre ≤10 % pour les algorithmes actuels (\Cref{fig:teaser}, gauche). Les algorithmes découverts généralisent : les attaques optimisées sur des modèles de substitution se transfèrent directement à des modèles non vus, atteignant un \textbf{ASR de 100 % contre Meta-SecAlign-70B} \citep{chen2025secalign}, contre 56 % pour la meilleure ligne de base (\Cref{fig:teaser}, milieu). En prolongeant les résultats de~\cite{carlini2025autoadvexbench}, notre travail constitue une démonstration précoce montrant que la recherche incrémentale en matière de sécurité et de sûreté peut être automatisée à l'aide d'agents LLM. Le red-teaming adversarial en boîte blanche s'y prête particulièrement bien : les méthodes existantes offrent des points de départ solides, et l'objectif d'optimisation fournit un feedback quantitatif dense.