Explication et exploitation des exemples adverses

Plusieurs modèles d'apprentissage automatique, dont les réseaux de neurones, classent systématiquement de manière erronée des exemples adverses --- des entrées formées en appliquant de petites mais intentionnellement pires perturbations à des exemples issus du jeu de données, de telle sorte que l'entrée perturbée entraîne une réponse incorrecte du modèle avec une grande confiance. Les premières tentatives pour expliquer ce phénomène se sont concentrées sur la non-linéarité et le surapprentissage. Nous soutenons au contraire que la principale cause de la vulnérabilité des réseaux de neurones aux perturbations adverses est leur nature linéaire. Cette explication est étayée par de nouveaux résultats quantitatifs tout en fournissant la première explication du fait le plus intrigant à leur sujet : leur généralisation entre différentes architectures et jeux d'entraînement. De plus, cette perspective offre une méthode simple et rapide pour générer des exemples adverses. En utilisant cette approche pour fournir des exemples d'entraînement adverses, nous réduisons l'erreur sur l'ensemble de test d'un réseau maxout sur le jeu de données MNIST.