Entraînement adversaire lisse

Il est couramment admis que les réseaux ne peuvent pas être à la fois précis et robustes, et que l’obtention de robustesse entraîne nécessairement une perte de précision. On suppose également généralement qu’à moins d’augmenter la taille des réseaux, les éléments architecturaux n’ont qu’un impact limité sur l’amélioration de la robustesse contre les attaques adverses. Dans cet article, nous présentons des preuves qui remettent en question ces croyances répandues, à travers une étude approfondie de l’entraînement adversaire. Notre observation clé est que la fonction d’activation ReLU, largement utilisée, affaiblit significativement l’entraînement adversaire en raison de sa nature non lisse. Par conséquent, nous proposons une méthode appelée Smooth Adversarial Training (SAT), dans laquelle nous remplaçons ReLU par des approximations lisses afin de renforcer l’entraînement adversaire. L’objectif des fonctions d’activation lisses dans SAT est de permettre la découverte d’exemples adverses plus difficiles et de calculer des mises à jour de gradient plus efficaces pendant l’entraînement.Par rapport à l’entraînement adversaire standard, SAT améliore la robustesse adversaire gratuitement, c’est-à-dire sans perte de précision ni augmentation du coût computationnel. Par exemple, sans introduire de calculs supplémentaires, SAT améliore significativement la robustesse de ResNet-50 de 33,0 % à 42,3 %, tout en augmentant la précision de 0,9 % sur ImageNet. SAT se comporte également très bien avec des réseaux plus grands : il permet à EfficientNet-L1 d’atteindre 82,2 % de précision et 58,6 % de robustesse sur ImageNet, surpassant ainsi l’état de l’art précédent de 9,5 points en précision et 11,6 points en robustesse. Les modèles sont disponibles à l’adresse suivante : https://github.com/cihangxie/SmoothAdversarialTraining.