il y a 11 jours

AnoShift : Un benchmark de décalage de distribution pour la détection d'anomalies non supervisée

Marius Dragoi, Elena Burceanu, Emanuela Haller, Andrei Manolache, Florin Brad

Résumé

L’analyse du décalage de distribution des données constitue une direction de recherche émergente en apprentissage automatique (ML) actuel, entraînant l’apparition de nouveaux benchmarks visant à fournir un cadre adéquat pour étudier les propriétés de généralisation des modèles ML. Les benchmarks existants se concentrent principalement sur l’apprentissage supervisé, et, à notre connaissance, aucun n’existe pour l’apprentissage non supervisé. Nous introduisons donc un benchmark pour la détection d’anomalies non supervisée, basé sur des données présentant un décalage temporel, construit à partir du jeu de données Kyoto-2006+, dédié à la détection d’intrusions réseau. Ce type de données répond aux conditions nécessaires à l’existence d’un décalage de distribution d’entrée : il couvre une période étendue (10 ans) et présente des changements naturels au fil du temps (par exemple, des modifications des comportements des utilisateurs ou des mises à jour logicielles). Nous mettons d’abord en évidence la nature non stationnaire des données à l’aide d’une analyse élémentaire par caractéristique, de la méthode t-SNE, ainsi qu’une approche fondée sur le transport optimal pour mesurer les distances globales entre les distributions des différentes années. Ensuite, nous proposons AnoShift, un protocole divisant les données en partitions d’évaluation indépendantes et identiquement distribuées (IID), NEAR et FAR. Nous validons la dégradation des performances au fil du temps sur une variété de modèles, allant des approches classiques aux architectures profondes. Enfin, nous montrons qu’en prenant en compte le problème du décalage de distribution et en y répondant de manière appropriée, les performances peuvent être améliorées par rapport à l’entraînement classique supposant une distribution indépendante et identiquement distribuée (en moyenne, jusqu’à 3 % d’amélioration pour notre approche). Le jeu de données et le code sont disponibles à l’adresse suivante : https://github.com/bit-ml/AnoShift/.