PuVAE : Un Autoencodeur Variationnel pour Purifier les Exemples Adverses

Les réseaux neuronaux profonds sont largement utilisés et montrent des performances excellentes dans de nombreux domaines. Cependant, ils sont vulnérables aux attaques adversariales qui compromettent le réseau au moment de l'inférence en appliquant des perturbations élaborément conçues aux données d'entrée. Bien que plusieurs méthodes de défense aient été proposées pour contrer des attaques spécifiques, d'autres méthodes d'attaque peuvent contourner ces mécanismes de défense. Par conséquent, nous proposons le Purifying Variational Autoencoder (PuVAE), une méthode visant à purifier les exemples adversariaux. La méthode proposée élimine une perturbation adversariale en projetant un exemple adversarial sur la variété de chaque classe, et détermine la projection la plus proche comme un échantillon purifié. Nous illustrons expérimentalement la robustesse du PuVAE face à diverses méthodes d'attaque sans aucune connaissance préalable. Dans nos expériences, la méthode proposée montre des performances compétitives par rapport aux méthodes de défense les plus avancées, et le temps d'inférence est environ 130 fois plus rapide que celui du Defense-GAN, qui est le modèle purificateur le plus avancé actuellement.