Amélioration de la représentation robuste lors de l'entraînement adversaire : critères d'alignement et d'exclusion

Les réseaux de neurones profonds sont vulnérables au bruit adversarial. L'entraînement adversarial (Adversarial Training, AT) s'est révélé être la stratégie de défense la plus efficace pour protéger les réseaux de neurones contre les attaques trompeuses. Toutefois, nous constatons que l'AT néglige l'apprentissage de caractéristiques robustes, ce qui entraîne une performance insuffisante en matière de robustesse adversariale. Pour résoudre ce problème, nous mettons en évidence deux critères fondamentaux pour une représentation robuste : (1) l’exclusion : la caractéristique d’un exemple doit rester éloignée de celles des autres classes ; (2) l’alignement : les caractéristiques des exemples naturels et de leurs contreparties adversariales doivent être proches l’une de l’autre. Ces principes nous inspirent à proposer un cadre générique d’AT visant à apprendre des représentations robustes, grâce à un contraste négatif asymétrique et à une attention inverse. Plus précisément, nous concevons un contraste négatif asymétrique fondé sur les probabilités prédites, afin de repousser les exemples de classes différentes dans l’espace des caractéristiques. En outre, nous proposons de pondérer les caractéristiques à l’aide des paramètres du classificateur linéaire, ce qui constitue une attention inverse permettant d’obtenir des caractéristiques conscientes des classes et de rapprocher les représentations des exemples appartenant à la même classe. Des évaluations empiriques menées sur trois jeux de données standard montrent que notre méthode améliore considérablement la robustesse de l’AT et atteint des performances de pointe.