Forêt d'isolation
La plupart des approches existantes basées sur un modèle pour la détection d’anomalies construisent un profil des instances normales, puis identifient comme anomalies les instances qui s’écartent de ce profil. Ce papier propose une méthode fondamentalement différente, basée sur un modèle, qui isole explicitement les anomalies au lieu de modéliser les points normaux. À notre connaissance, le concept d’isolation n’a pas été exploré dans la littérature actuelle. L’utilisation de l’isolation permet à la méthode proposée, iForest, d’exploiter l’échantillonnage partiel à un degré qui n’est pas réalisable dans les méthodes existantes, conduisant à un algorithme dont la complexité temporelle est linéaire, avec une constante faible et une demande mémoire réduite. Notre évaluation expérimentale montre que iForest se distingue favorablement par rapport à ORCA, une méthode à complexité quasi-linéaire basée sur les distances, à LOF et aux Forêts Aléatoires en termes de score AUC et de temps de traitement, notamment sur de grands ensembles de données. iForest se révèle également efficace dans des problèmes à haute dimension, caractérisés par un grand nombre de variables non pertinentes, ainsi que dans des situations où l’ensemble d’apprentissage ne contient aucune anomalie.