Command Palette
Search for a command to run...
Attribution axiomatique pour les réseaux de neurones profonds
Attribution axiomatique pour les réseaux de neurones profonds
Sundararajan Mukund Taly Ankur Yan Qiqi
Résumé
Nous étudions le problème de l’attribution des prédictions d’un réseau de neurones profond à ses caractéristiques d’entrée, un problème déjà abordé par plusieurs travaux antérieurs. Nous identifions deux axiomes fondamentaux — la Sensibilité et l’Invariance par implémentation — auxquels les méthodes d’attribution devraient satisfaire. Nous montrons qu’elles ne sont pas satisfaites par la plupart des méthodes d’attribution connues, ce que nous considérons comme une faiblesse fondamentale de ces approches. Nous utilisons ces axiomes pour guider la conception d’une nouvelle méthode d’attribution appelée Integrated Gradients. Notre méthode ne nécessite aucune modification du réseau original et est extrêmement simple à implémenter : elle ne requiert qu’un petit nombre d’appels à l’opérateur de gradient standard. Nous appliquons cette méthode à plusieurs modèles d’images, à quelques modèles de texte et à un modèle chimique, démontrant ainsi sa capacité à diagnostiquer les réseaux, à extraire des règles à partir d’un modèle, et à améliorer l’interaction des utilisateurs avec les modèles.