Defense-GAN : Protection des Classifieurs Contre les Attaques Adverses en Utilisant des Modèles Génératifs

Ces dernières années, les approches par réseaux de neurones profonds ont été largement adoptées pour les tâches d'apprentissage automatique, notamment la classification. Cependant, il a été démontré qu'ils sont vulnérables aux perturbations adverses : des perturbations soigneusement élaborées et de petite amplitude peuvent entraîner une mauvaise classification d'images légitimes. Nous proposons Defense-GAN, un nouveau cadre qui exploite la capacité expressive des modèles génératifs pour défendre les réseaux de neurones profonds contre ces attaques. Defense-GAN est formé pour modéliser la distribution des images non perturbées. Au moment de l'inférence, il trouve une sortie proche d'une image donnée qui ne contient pas les modifications adverses. Cette sortie est ensuite transmise au classifieur. Notre méthode proposée peut être utilisée avec n'importe quel modèle de classification et ne modifie ni la structure ni la procédure d'entraînement du classifieur. Elle peut également être utilisée comme défense contre toute attaque car elle ne suppose pas de connaissances sur le processus de génération des exemples adverses. Nous montrons empiriquement que Defense-GAN est efficace de manière constante contre différentes méthodes d'attaque et améliore les stratégies de défense existantes. Notre code a été rendu publiquement disponible à l'adresse https://github.com/kabkabm/defensegan.