Réseaux d'Explication Contextuelle

Les algorithmes d'apprentissage modernes excellent dans la production de modèles précis mais complexes des données. Cependant, le déploiement de tels modèles dans le monde réel nécessite une attention particulière : nous devons garantir leur fiabilité, leur robustesse et l'absence de biais indésirables. Cela motive le développement de modèles qui sont également précis mais qui peuvent être inspectés et évalués facilement au-delà de leurs performances prédictives. À cet effet, nous introduisons les réseaux d'explication contextuelle (CEN) --- une classe d'architectures qui apprennent à prédire en générant et en utilisant des modèles probabilistes intermédiaires simplifiés. Plus précisément, les CENs génèrent des paramètres pour des modèles graphiques intermédiaires qui sont ensuite utilisés pour la prédiction et jouent le rôle d'explications. Contrairement aux outils existants d'explication post hoc des modèles, les CENs apprennent à prédire et à expliquer simultanément. Notre approche offre deux avantages majeurs : (i) pour chaque prédiction valide, une explication spécifique à l'instance est générée sans surcoût computationnel et (ii) la prédiction par explication agit comme un régulariseur et améliore les performances dans des situations où les données sont rares. Nous analysons le cadre proposé tant théoriquement qu'expérimentalement. Nos résultats sur des tâches de classification d'images et de texte ainsi que sur l'analyse de survie montrent non seulement que les CENs sont compétitifs avec les méthodes les plus avancées actuellement disponibles, mais aussi qu'ils offrent des insights supplémentaires derrière chaque prédiction, ce qui peut être précieux pour le soutien décisionnel. Nous montrons également que, bien que les méthodes post hoc puissent produire des explications trompeuses dans certains cas, les CENs sont cohérents et permettent de détecter systématiquement ces cas.