Détection non supervisée d'anomalies pour les données de vérification et impact des encodages catégoriels

Dans cet article, nous introduisons le jeu de données Vehicle Claims, composé de réclamations frauduleuses d'assurance pour réparations automobiles. Ces données relèvent de la catégorie plus large des données d'audit, qui inclut également les journaux (journals) et les données d'intrusion réseau. Les données de réclamations d'assurance se distinguent nettement des autres types de données d'audit (comme les données d'intrusion réseau) par le grand nombre d'attributs catégoriels qu'elles contiennent. Nous abordons un problème courant dans le domaine de la détection d'anomalies : le manque de jeux de données de référence disponibles. En effet, les jeux de données sont généralement confidentiels, et les jeux de données tabulaires publics ne disposent pas d'un nombre suffisant d'attributs catégoriels pertinents. Ainsi, un grand jeu de données a été créé à cet effet et désigné sous le nom de jeu de données Vehicle Claims (VC). Ce jeu de données est évalué sur des méthodes d'apprentissage profond et d'apprentissage superficiel. En raison de l'introduction d'attributs catégoriels, nous rencontrons le défi de leur encodage dans le cadre d'un jeu de données volumineux. L'encodage One-Hot appliqué à des données catégorielles à cardinalité élevée entraîne le « fléau de la dimensionnalité », nous avons donc expérimenté l'encodage GEL ainsi que des couches d'embedding pour représenter ces attributs catégoriels. Notre travail compare plusieurs approches — apprentissage compétitif, erreur de reconstruction, estimation de densité et apprentissage contrastif — sur différentes représentations des valeurs catégorielles : étiquettes (Label), encodage One-Hot, encodage GEL et couches d'embedding.