Q-SENN : Réseaux de neurones auto-explicatifs quantifiés

Les explications en vision par ordinateur sont souvent souhaitées, mais la plupart des réseaux de neurones profonds ne peuvent fournir que des cartes de saliency dont la fidélité est discutable. Les réseaux de neurones auto-explicatifs (SENN) extraient des concepts interprétables avec fidélité, diversité et ancrage, qu’ils combinent linéairement pour prendre des décisions. Bien qu’ils puissent expliquer ce qui a été reconnu, les premières implémentations manquent d’exactitude et de généralisation. Nous proposons le réseau de neurones auto-explicatif quantifié, Q-SENN. Q-SENN satisfait ou dépasse les critères souhaités par les SENN tout en étant applicable à des jeux de données plus complexes, tout en conservant la majeure partie ou la totalité de la précision d’un modèle de référence non interprétable, surpassant ainsi les travaux antérieurs sur tous les indicateurs considérés. Q-SENN décrit la relation entre chaque classe et chaque caractéristique comme étant soit positive, soit négative, soit neutre, au lieu d’un nombre arbitraire de relations possibles, ce qui impose des caractéristiques plus binaires et plus proches de la compréhension humaine. Étant donné qu’en moyenne chaque classe est associée à seulement 5 caractéristiques interprétables, Q-SENN offre une interprétabilité locale et globale convaincante. En outre, nous proposons une méthode d’alignement des caractéristiques, capable d’aligner les caractéristiques apprises avec des concepts fondés sur le langage humain sans nécessiter d’étiquetage supplémentaire. Ainsi, ce qui est appris peut être plus facilement exprimé verbalement. Le code est disponible à l’adresse suivante : https://github.com/ThomasNorr/Q-SENN