MIX : Un cadre d’apprentissage conjoint pour la détection à la fois des anomalies regroupées et dispersées dans des données mixtes
Les données de type mixte sont omniprésentes dans la réalité, mais les méthodes disponibles pour la détection des anomalies sur de telles données restent très limitées. Certaines méthodes existantes traitent les données de type mixte par transformation des caractéristiques, mais leur performance est compromise par la perte d’information et le bruit introduits par cette transformation. Une autre catégorie d’approches évalue séparément l’anormalité dans les caractéristiques numériques et catégorielles. Toutefois, elles ne prennent pas suffisamment en compte le comportement des objets de données dans les différents espaces de caractéristiques, ce qui conduit fréquemment à des résultats sous-optimaux. En ce qui concerne la forme des anomalies, de nombreuses données du monde réel contiennent à la fois des anomalies regroupées (clustered outliers) et des anomalies dispersées (scattered outliers), mais plusieurs détecteurs d’anomalies sont intrinsèquement limités par leur définition d’anomalie, empêchant ainsi la détection simultanée des deux types. Pour remédier à ces problèmes, nous proposons une méthode non supervisée de détection d’anomalies, appelée MIX. MIX construit un cadre d’apprentissage conjoint afin d’établir un mécanisme de coopération qui permet aux évaluations d’anormalité séparées de communiquer de manière continue et de capturer pleinement le comportement des objets de données dans l’autre espace de caractéristiques. Plus précisément, MIX effectue de manière itérative l’évaluation de l’anormalité dans les espaces numériques et catégoriels. Chaque phase d’évaluation peut être itérativement et coopérativement améliorée grâce aux connaissances a priori fournies par l’autre espace de caractéristiques. Pour détecter à la fois les anomalies regroupées et dispersées, les phases d’évaluation d’anormalité captent la caractéristique essentielle des anomalies, à savoir l’évaluation de l’anormalité par écart par rapport au modèle normal. Nous démontrons que MIX surpasse significativement huit détecteurs d’anomalies d’état de l’art sur douze jeux de données réels, tout en offrant une bonne scalabilité.