Compréhension de la robustesse de la défense par fonctionnalités aléatoires contre les attaques adverses basées sur les requêtes

Des travaux récents ont montré que les réseaux de neurones profonds sont vulnérables aux exemples adverses, c’est-à-dire des échantillons proches de l’image d’origine mais capables de provoquer une classification erronée par le modèle. Même en n’ayant accès qu’à la sortie du modèle, un attaquant peut mettre en œuvre des attaques en boîte noire pour générer de tels exemples adverses. Dans ce travail, nous proposons une défense simple et légère contre les attaques en boîte noire, en ajoutant du bruit aléatoire aux caractéristiques cachées aux couches intermédiaires du modèle au moment de l’inférence. Notre analyse théorique confirme que cette méthode renforce efficacement la résilience du modèle face aux attaques en boîte noire basées sur les scores et celles basées sur les décisions. Plus important encore, notre défense ne nécessite pas d’entraînement adversaire et a un impact minimal sur la précision, ce qui la rend applicable à tout modèle pré-entraîné. Notre analyse révèle également l’importance d’ajouter du bruit de manière sélective à différentes parties du modèle, en fonction du gradient de la fonction objectif adverse, qui peut varier au cours de l’attaque. Nous démontrons la robustesse de notre défense face à plusieurs attaques en boîte noire à travers des expérimentations empiriques étendues impliquant divers modèles aux architectures variées.