HyperAIHyperAI
il y a 2 mois

Robustesse Adversaire par Linéarisation Locale

Chongli Qin; James Martens; Sven Gowal; Dilip Krishnan; Krishnamurthy Dvijotham; Alhussein Fawzi; Soham De; Robert Stanforth; Pushmeet Kohli
Robustesse Adversaire par Linéarisation Locale
Résumé

L'entraînement adversarial est une méthodologie efficace pour former des réseaux de neurones profonds résistants aux perturbations adversariales bornées par une norme. Cependant, le coût computationnel de l'entraînement adversarial augmente de manière prohibitivement importante lorsque la taille du modèle et le nombre de dimensions d'entrée augmentent. De plus, l'entraînement contre des adversaires moins coûteux, donc plus faibles, produit des modèles résistants aux attaques faibles mais qui s'effondrent sous des attaques plus puissantes. Ce phénomène est souvent attribué à l'obfuscation du gradient ; ces modèles présentent une surface de perte hautement non-linéaire dans les environs des exemples d'entraînement, rendant difficile la réussite des attaques basées sur le gradient, même si les exemples adversariaux existent toujours. Dans ce travail, nous introduisons un régulariseur novateur qui encourage la perte à se comporter linéairement dans les environs des données d'entraînement, pénalisant ainsi l'obfuscation du gradient tout en favorisant la robustesse. Nous montrons par des expériences exhaustives sur CIFAR-10 et ImageNet que les modèles formés avec notre régulariseur évitent l'obfuscation du gradient et peuvent être entraînés beaucoup plus rapidement que l'entraînement adversarial. En utilisant ce régulariseur, nous dépassons l'état actuel de l'art et atteignons une précision adversariale de 47% pour ImageNet avec des perturbations adversariales (l)-infiniti de rayon 4/255 sous une attaque blanche non ciblée et forte. De plus, nous obtenons des résultats équivalents à ceux de l'état de l'art pour CIFAR-10 à 8/255.