HyperAIHyperAI
il y a 4 mois

Apprentissage de perturbations adverses universelles avec des modèles génératifs

Jamie Hayes; George Danezis
Apprentissage de perturbations adverses universelles avec des modèles génératifs
Résumé

Les réseaux de neurones sont connus pour être vulnérables aux exemples adverses, des entrées qui ont été intentionnellement perturbées pour rester visuellement similaires à l'entrée source, mais qui provoquent une mauvaise classification. Il a récemment été démontré que, étant donné un ensemble de données et un classifieur, il existe des perturbations adverses universelles, une seule perturbation capable de provoquer une mauvaise classification lorsqu'elle est appliquée à n'importe quelle entrée. Dans cette étude, nous introduisons les réseaux adverses universels, un réseau génératif capable de tromper un classifieur cible lorsque sa sortie générée est ajoutée à un échantillon propre d'un ensemble de données. Nous montrons que cette technique améliore les attaques adverses universelles connues.