Détection d’anomalies visuelles par transformateur à double attention et flux discriminatif

Dans cet article, nous introduisons le cadre novateur et de pointe, appelé Dual-attention Transformer and Discriminative Flow (DADF), dédié à la détection visuelle d’anomalies. La détection d’anomalies visuelles, fondée uniquement sur des connaissances normales, présente des applications étendues dans les environnements industriels et suscite un intérêt croissant. Toutefois, la plupart des méthodes existantes peinent à satisfaire pleinement les exigences de performance. À l’inverse, le cadre proposé, DADF, introduit une nouvelle approche : il exploite d’abord un modèle pré-entraîné afin d’obtenir des embeddings a priori multi-échelles, puis développe un Transformer visionnel doté de mécanismes d’attention duals — l’attention auto et l’attention mémorielle — pour réaliser une reconstruction à deux niveaux des embeddings a priori, en intégrant une association séquentielle et normative. En outre, nous proposons d’utiliser un flux normalisant afin d’établir une vraisemblance discriminative pour la distribution conjointe des embeddings a priori et de leurs reconstructions à chaque échelle. Le modèle DADF atteint des scores de 98,3/98,4 en AUROC image/pixel sur le benchmark Mvtec AD, ainsi que 83,7 en AUROC image et 67,4 en sPRO pixel sur le benchmark Mvtec LOCO AD, démontrant ainsi l’efficacité de l’approche proposée.