LADMIM : Détection d'anomalies logiques basée sur le modèle d'image masquée dans l'espace latent discret

La détection d’anomalies telles que les combinaisons incorrectes d’objets ou les déviations dans leurs positions constitue un défi majeur dans le domaine de la détection d’anomalies industrielles. Les méthodes traditionnelles se concentrent principalement sur les caractéristiques locales des images normales, telles que les rayures ou les taches, ce qui rend la détection d’anomalies liées aux relations entre ces caractéristiques particulièrement difficile. Le modèle d’image masquée (Masked Image Modeling, MIM) est une technique d’apprentissage auto-supervisé qui consiste à prédire la représentation fonctionnelle des régions masquées d’une image. Pour reconstruire ces régions masquées, il est nécessaire de comprendre la composition de l’image, ce qui permet d’apprendre les relations entre les caractéristiques à l’intérieur de celle-ci. Nous proposons une nouvelle approche exploitant les caractéristiques du MIM afin de détecter efficacement les anomalies logiques. Afin de réduire le flou dans l’image reconstruite, nous remplaçons la prédiction des pixels par la prédiction de la distribution de probabilité des variables latentes discrètes des régions masquées, à l’aide d’un tokenizer. Nous avons évalué la méthode proposée sur le jeu de données MVTecLOCO, obtenant une AUC moyenne de 0,867, dépassant ainsi les méthodes traditionnelles basées sur la reconstruction et l’imitation (distillation).