HyperAIHyperAI

Command Palette

Search for a command to run...

AnoShift : Un benchmark de décalage de distribution pour la détection d'anomalies non supervisée

Marius Dragoi Elena Burceanu Emanuela Haller Andrei Manolache Florin Brad

Résumé

L’analyse du décalage de distribution des données constitue une direction de recherche émergente en apprentissage automatique (ML) actuel, entraînant l’apparition de nouveaux benchmarks visant à fournir un cadre adéquat pour étudier les propriétés de généralisation des modèles ML. Les benchmarks existants se concentrent principalement sur l’apprentissage supervisé, et, à notre connaissance, aucun n’existe pour l’apprentissage non supervisé. Nous introduisons donc un benchmark pour la détection d’anomalies non supervisée, basé sur des données présentant un décalage temporel, construit à partir du jeu de données Kyoto-2006+, dédié à la détection d’intrusions réseau. Ce type de données répond aux conditions nécessaires à l’existence d’un décalage de distribution d’entrée : il couvre une période étendue (10 ans) et présente des changements naturels au fil du temps (par exemple, des modifications des comportements des utilisateurs ou des mises à jour logicielles). Nous mettons d’abord en évidence la nature non stationnaire des données à l’aide d’une analyse élémentaire par caractéristique, de la méthode t-SNE, ainsi qu’une approche fondée sur le transport optimal pour mesurer les distances globales entre les distributions des différentes années. Ensuite, nous proposons AnoShift, un protocole divisant les données en partitions d’évaluation indépendantes et identiquement distribuées (IID), NEAR et FAR. Nous validons la dégradation des performances au fil du temps sur une variété de modèles, allant des approches classiques aux architectures profondes. Enfin, nous montrons qu’en prenant en compte le problème du décalage de distribution et en y répondant de manière appropriée, les performances peuvent être améliorées par rapport à l’entraînement classique supposant une distribution indépendante et identiquement distribuée (en moyenne, jusqu’à 3 % d’amélioration pour notre approche). Le jeu de données et le code sont disponibles à l’adresse suivante : https://github.com/bit-ml/AnoShift/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp