Modèle neuro-symbolique pour la détection de fraude en temps réel
Un développeur a découvert une limitation critique lors du débogage d'un système de détection de fraude : les méthodes d'explicabilité post-hoc, comme SHAP, sont trop lentes et instables pour une utilisation en temps réel. Alors que le modèle prédictif lui-même est déterministe, l'outil d'explication générait des résultats variables à chaque exécution, rendant les décisions non auditablement fiables. Pour résoudre ce problème, un modèle neuro-symbolique a été conçu pour intégrer l'explication directement dans l'architecture du réseau, éliminant ainsi le besoin d'un calcul séparé. L'étude compare ce nouveau modèle à un réseau de neurones conventionnel de base, tous deux entraînés sur le célèbre jeu de données Kaggle sur la fraude par carte de crédit. Ce jeu de données comprend 284 807 transactions réelles, dont moins de 0,2 % sont frauduleuses. Pour compenser ce déséquilibre, la technique SMOTE a été appliquée uniquement aux données d'entraînement. Le modèle neuro-symbolique combine deux voies de traitement parallèles : un réseau de neurons qui apprend des représentations latentes et une couche symbolique composée de six règles différentiables. Ces règles, ancrées sur des caractéristiques connues pour leur signification frauduleuse, fournissent des explications lisibles par l'humain sous forme d'activations instantanées lors de la passe avant du réseau. Les résultats montrent que le modèle neuro-symbolique offre une précision et une exhaustivité de détection des fraudes comparables au modèle standard. Bien que le rappel soit identique pour les deux approches, le modèle neuro-symbolique présente une légère baisse de précision, entraînant quelques faux positifs supplémentaires. Cependant, cet écart de performance mineure est contrebalancé par une révolution en matière d'efficacité temporelle. Là où SHAP nécessite environ 30 millisecondes par transaction pour générer une explication, le modèle neuro-symbolique produit la prédiction et l'explication simultanément en moins d'une milliseconde, soit un gain de vitesse de 33 fois. Au-delà de la vitesse, la cohérence est l'avantage déterminant. Les méthodes approximatives comme SHAP reposent sur un échantillonnage aléatoire, ce qui signifie qu'expliquer la même transaction deux fois peut donner des résultats légèrement différents. Dans un contexte de conformité réglementaire ou d'audit, cette variabilité est inacceptable. Le modèle neuro-symbolique, en revanche, produit des explications déterministes et reproductibles, garantissant que la même transaction sera toujours expliquée de la même manière. L'analyse des règles apprises révèle que le modèle a identifié automatiquement les signaux frauduleux les plus pertinents, tels que les valeurs basses de certaines composantes principales et les montants anormaux. Une observation inattendue a émergé : une seule règle (LOW_V4) a dominé le poids symbolique avec plus de 57 % des attributions, suggérant que le mécanisme d'explication a parfois tendance à se concentrer sur un seul indicateur au détriment des autres. Pour corriger cela, les auteurs proposent l'ajout de termes de régularisation lors de l'entraînement pour encourager une distribution plus uniforme des poids entre les règles. En conclusion, l'explicabilité ne doit pas être une étape de post-traitement lente et aléatoire, mais une composante intrinsèque de l'architecture du modèle. Cette approche permet de prendre des décisions en temps réel avec la garantie d'une traçabilité immédiate et fiable, transformant ainsi l'explication d'un outil d'analyse en un élément fonctionnel du système de production.
