Attraper les cygnes gris et les cygnes noirs : détection supervisée d'anomalies à ensemble ouvert

Bien que la plupart des études existantes sur la détection d’anomalies supposent la disponibilité uniquement d’échantillons normaux pour l’entraînement, de rares exemples d’anomalies étiquetés sont souvent disponibles dans de nombreuses applications réelles, telles que les échantillons de défauts identifiés lors d’inspections aléatoires de qualité, ou encore les images de lésions confirmées par des radiologues lors de dépistages médicaux quotidiens. Ces exemples d’anomalies fournissent des connaissances précieuses sur les types d’anomalies spécifiques à l’application, permettant une amélioration significative de la détection d’anomalies similaires dans certains modèles récents. Toutefois, les anomalies observées pendant l’entraînement ne couvrent généralement pas toutes les classes d’anomalies possibles, ce qui rend ces modèles peu efficaces pour généraliser à des classes d’anomalies inconnues. Ce papier aborde la détection supervisée d’anomalies en ensemble ouvert, dans lequel nous apprenons des modèles de détection à partir d’exemples d’anomalies, dans le but de détecter à la fois les anomalies déjà vues (« cygnes gris ») et les anomalies inconnues (« cygnes noirs »). Nous proposons une nouvelle approche qui apprend des représentations désentrelacées des anomalies illustrées par les anomalies vues, des anomalies pseudo-étiquetées et des anomalies résiduelles latentes (c’est-à-dire des échantillons présentant des résidus inhabituels par rapport aux données normales dans un espace latent), les deux dernières catégories étant spécifiquement conçues pour détecter les anomalies inconnues. Des expériences étendues sur neuf jeux de données réels de détection d’anomalies montrent que notre modèle obtient des performances supérieures dans la détection des anomalies vues et inconnues dans diverses configurations. Le code et les données sont disponibles à l’adresse : https://github.com/choubo/DRA.