Explications logiques basées sur l'entropie des réseaux de neurones

L’intelligence artificielle explicable a émergé de manière rapide depuis que les législateurs ont commencé à exiger des modèles interprétables dans les domaines critiques pour la sécurité. Les réseaux de neurones fondés sur des concepts se sont imposés comme des méthodes explicables par conception, car ils exploitent des symboles compréhensibles par l’humain (c’est-à-dire des concepts) pour prédire les appartenance aux classes. Toutefois, la plupart de ces approches se concentrent sur l’identification des concepts les plus pertinents, sans toutefois fournir d’explications concises et formelles sur la manière dont ces concepts sont utilisés par le classificateur pour établir ses prédictions. Dans cet article, nous proposons une nouvelle approche end-to-end différentiable permettant d’extraire des explications logiques à partir de réseaux de neurones en utilisant le formalisme de la logique du premier ordre. La méthode repose sur un critère basé sur l’entropie, qui identifie automatiquement les concepts les plus pertinents. Nous présentons quatre études de cas distinctes pour démontrer que : (i) ce critère basé sur l’entropie permet de distiller des explications logiques concises dans des domaines critiques pour la sécurité, que ce soit à partir de données cliniques ou de vision par ordinateur ; (ii) l’approche proposée surpasse les modèles blancs de pointe en termes de précision de classification, tout en égalant les performances des modèles noirs.