Détection d'anomalies par analyse en composantes principales avec suréchantillonnage
RésuméLa détection des valeurs aberrantes constitue une question importante dans le domaine du data mining et a fait l’objet de nombreuses études dans divers domaines de recherche. Elle permet de repérer un petit nombre de données anormales. Dans cet article, nous utilisons la procédure « laisser de côté un » (Leave One Out) afin d’évaluer l’effet, « avec ou sans » chaque point individuel, sur la variation des directions principales. À partir de cette approche, nous proposons une méthode de détection des valeurs aberrantes basée sur une analyse en composantes principales avec sur-échantillonnage, visant à mettre en évidence l’impact d’une instance anormale (ou valeur aberrante). Outre la détection des points suspects, nous avons également conçu une méthode de détection en ligne des anomalies pour identifier les anomalies nouvelles arrivant en temps réel. En outre, nous étudions également la mise à jour rapide des directions principales, afin d’assurer un calcul efficace et de répondre aux exigences de détection en ligne. Des expériences numériques montrent que la méthode proposée est efficace en termes de temps de calcul et de détection des anomalies.