Localisation d’anomalies dans les images guidée par l’attention

La localisation des anomalies est un problème crucial en vision par ordinateur, consistant à identifier les régions anormales au sein d’images, avec des applications dans l’inspection industrielle, la surveillance et l’imagerie médicale. Ce défi est particulièrement difficile en raison de la faible taille des échantillons et de la faible couverture spatiale des anomalies dans les scénarios du monde réel. La plupart des méthodes antérieures nécessitent l’utilisation d’images d’anomalies pendant l’entraînement afin de calculer un seuil spécifique à chaque classe pour localiser les anomalies. Sans exiger d’images d’anomalies durant l’entraînement, nous proposons CAVGA (Convolutional Adversarial Variational Autoencoder with Guided Attention), une architecture qui localise les anomalies en utilisant une variable latente convolutive afin de préserver les informations spatiales. Dans un cadre non supervisé, nous introduisons une perte d’expansion d’attention, visant à inciter CAVGA à se concentrer sur toutes les régions normales de l’image. En outre, dans un cadre faiblement supervisé, nous proposons une perte d’attention guidée complémentaire, qui pousse la carte d’attention à se focaliser sur les régions normales tout en minimisant l’attention attribuée aux régions anormales. CAVGA surpasser les méthodes de localisation d’anomalies les plus avancées (SOTA) sur les jeux de données MVTec Anomaly Detection (MVTAD), modified ShanghaiTech Campus (mSTC) et Large-scale Attention based Glaucoma (LAG) dans un cadre non supervisé, ainsi qu’avec seulement 2 % d’images anormales dans un cadre faiblement supervisé. CAVGA dépasse également les méthodes SOTA de détection d’anomalies sur les jeux de données MNIST, CIFAR-10, Fashion-MNIST, MVTAD, mSTC et LAG.