HyperAIHyperAI
il y a 11 jours

Entraînement à la robustesse attributionnelle par alignement spatial des gradients d’entrée

Mayank Singh, Nupur Kumari, Puneet Mangla, Abhishek Sinha, Vineeth N Balasubramanian, Balaji Krishnamurthy
Entraînement à la robustesse attributionnelle par alignement spatial des gradients d’entrée
Résumé

L’interprétabilité est un domaine émergent de recherche dans le cadre des systèmes d’apprentissage automatique fiables. Le déploiement sécurisé des systèmes d’apprentissage automatique exige que les prédictions ainsi que leurs explications soient fiables et robustes. Récemment, il a été démontré que les explications pouvaient être facilement manipulées en ajoutant des perturbations visuellement imperceptibles à l’entrée tout en conservant inchangée la prédiction du modèle. Dans ce travail, nous étudions le problème de la robustesse attributionnelle (c’est-à-dire la robustesse des explications fournies par les modèles) en établissant une borne supérieure de la vulnérabilité attributionnelle en fonction de la corrélation spatiale entre l’image d’entrée et la carte d’explication associée. Nous proposons une méthode d’entraînement qui apprend des caractéristiques robustes en minimisant cette borne supérieure à l’aide d’une perte de triplet à marge douce. Notre méthode d’entraînement robuste à l’attribution (ART, pour Robust Attribution Training) atteint de nouvelles performances de pointe en matière de robustesse attributionnelle, avec une amélioration de l’ordre de 6 à 18 % sur plusieurs jeux de données standards, à savoir SVHN, CIFAR-10 et GTSRB. Nous montrons également l’utilité de cette technique d’entraînement robuste (ART) dans la tâche secondaire de localisation d’objets faiblement supervisée, où elle obtient une performance de pointe sur le jeu de données CUB-200.

Entraînement à la robustesse attributionnelle par alignement spatial des gradients d’entrée | Articles de recherche récents | HyperAI