HyperAIHyperAI

Command Palette

Search for a command to run...

Grad-CAM : Explications visuelles à partir de réseaux profonds par localisation basée sur les gradients

Résumé

Nous proposons une technique permettant de produire des « explications visuelles » pour les décisions prises par une large classe de modèles basés sur les réseaux de neurones convolutifs (CNN), afin d’en améliorer la transparence. Notre approche — la cartographie d’activation de classe pondérée par les gradients (Grad-CAM) — utilise les gradients d’un concept cible quelconque, en provenance de la couche convolutive finale, afin de générer une carte de localisation grossière mettant en évidence les régions importantes de l’image pour la prédiction de ce concept. Grad-CAM est applicable à une grande variété de familles de modèles CNN : (1) les CNN comportant des couches entièrement connectées, (2) les CNN utilisés pour des sorties structurées, (3) les CNN appliqués à des tâches impliquant des entrées multimodales ou l’apprentissage par renforcement, sans aucune modification architecturale ni re-entraînement. Nous combinons Grad-CAM avec des visualisations à haute résolution afin d’obtenir une visualisation discriminante par classe de haute qualité, que nous appliquons à des modèles pré-entraînés pour la classification d’images, la génération de légendes (captioning) et la réponse à des questions visuelles (VQA), y compris des architectures basées sur ResNet. Dans le cadre des modèles de classification d’images, nos visualisations (a) révèlent des informations sur leurs modes de défaillance, (b) sont robustes aux images adverses, (c) surpassent les méthodes précédentes en termes de localisation, (d) sont plus fidèles au modèle sous-jacent, et (e) aident à améliorer la généralisation en permettant d’identifier les biais présents dans les jeux de données. Pour les tâches de génération de légendes et de VQA, nous montrons que même les modèles ne reposant pas sur des mécanismes d’attention peuvent localiser efficacement les entrées pertinentes. Nous proposons une méthode pour identifier les neurones importants à l’aide de Grad-CAM, et la combinons avec les noms de ces neurones afin de fournir des explications textuelles des décisions du modèle. Enfin, nous concevons et menons des études humaines afin d’évaluer si Grad-CAM aide les utilisateurs à établir une confiance appropriée dans les prédictions des modèles, et démontrons que Grad-CAM permet à des utilisateurs non formés de distinguer avec succès un modèle « plus fort » d’un modèle « plus faible », même lorsque les deux produisent des prédictions identiques. Notre code est disponible à l’adresse suivante : https://github.com/ramprs/grad-cam/, accompagné d’une démonstration en ligne à l’adresse http://gradcam.cloudcv.org, ainsi qu’une vidéo disponible à l’adresse youtu.be/COjUB9Izk6E.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp