HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 heures
LLM
DeepSeek

Claudini : Autoresearch identifie des algorithmes d'attaque adversariale de pointe pour les LLMs

Alexander Panfilov Peter Romov Igor Shilov Yves-Alexandre de Montjoye Jonas Geiping Maksym Andriushchenko

Résumé

Les agents LLM tels que Claude Code ne se limitent pas à la génération de code ; ils peuvent également être déployés pour mener des recherches et des activités d'ingénierie en intelligence artificielle de manière autonome \citep{rank2026posttrainbench, novikov2025alphaevolve}. Nous démontrons qu'un pipeline de type \emph{autoresearch} \citep{karpathy2026autoresearch}, propulsé par Claude Code, découvre de nouveaux \textit{algorithmes} d'attaques adverses en boîte blanche qui \textbf{surpassent nettement l'ensemble des méthodes existantes (plus de 30)} dans les évaluations de contournement de sécurité (jailbreaking) et d'injection de prompt. À partir d'implémentations d'attaques existantes, telles que GCG~\citep{zou2023universal}, l'agent itère pour générer de nouveaux algorithmes atteignant un taux de succès d'attaque (ASR) allant jusqu'à 40 % sur des requêtes CBRN ciblant le modèle GPT-OSS-Safeguard-20B, contre ≤10 % pour les algorithmes actuels (\Cref{fig:teaser}, gauche). Les algorithmes découverts généralisent : les attaques optimisées sur des modèles de substitution se transfèrent directement à des modèles non vus, atteignant un \textbf{ASR de 100 % contre Meta-SecAlign-70B} \citep{chen2025secalign}, contre 56 % pour la meilleure ligne de base (\Cref{fig:teaser}, milieu). En prolongeant les résultats de~\cite{carlini2025autoadvexbench}, notre travail constitue une démonstration précoce montrant que la recherche incrémentale en matière de sécurité et de sûreté peut être automatisée à l'aide d'agents LLM. Le red-teaming adversarial en boîte blanche s'y prête particulièrement bien : les méthodes existantes offrent des points de départ solides, et l'objectif d'optimisation fournit un feedback quantitatif dense.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Claudini : Autoresearch identifie des algorithmes d'attaque adversariale de pointe pour les LLMs | Articles | HyperAI