HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement à la robustesse attributionnelle par alignement spatial des gradients d’entrée

Mayank Singh Nupur Kumari Puneet Mangla Abhishek Sinha Vineeth N Balasubramanian Balaji Krishnamurthy

Résumé

L’interprétabilité est un domaine émergent de recherche dans le cadre des systèmes d’apprentissage automatique fiables. Le déploiement sécurisé des systèmes d’apprentissage automatique exige que les prédictions ainsi que leurs explications soient fiables et robustes. Récemment, il a été démontré que les explications pouvaient être facilement manipulées en ajoutant des perturbations visuellement imperceptibles à l’entrée tout en conservant inchangée la prédiction du modèle. Dans ce travail, nous étudions le problème de la robustesse attributionnelle (c’est-à-dire la robustesse des explications fournies par les modèles) en établissant une borne supérieure de la vulnérabilité attributionnelle en fonction de la corrélation spatiale entre l’image d’entrée et la carte d’explication associée. Nous proposons une méthode d’entraînement qui apprend des caractéristiques robustes en minimisant cette borne supérieure à l’aide d’une perte de triplet à marge douce. Notre méthode d’entraînement robuste à l’attribution (ART, pour Robust Attribution Training) atteint de nouvelles performances de pointe en matière de robustesse attributionnelle, avec une amélioration de l’ordre de 6 à 18 % sur plusieurs jeux de données standards, à savoir SVHN, CIFAR-10 et GTSRB. Nous montrons également l’utilité de cette technique d’entraînement robuste (ART) dans la tâche secondaire de localisation d’objets faiblement supervisée, où elle obtient une performance de pointe sur le jeu de données CUB-200.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp