Produire une fois, utiliser deux fois pour la détection d'anomalies

La détection d’anomalies visuelles vise à classifier et localiser les régions présentant une apparence anormale par rapport au comportement normal. Les méthodes basées sur des embeddings et les méthodes basées sur la reconstruction constituent deux approches principales pour cette tâche. Toutefois, ces méthodes s'avèrent soit peu efficaces, soit insuffisamment précises pour les applications industrielles. Pour résoudre ce problème, nous proposons POUTA (Produce Once Utilize Twice for Anomaly detection), une méthode qui améliore à la fois la précision et l’efficacité en réutilisant l’information discriminante potentielle contenue dans le réseau de reconstruction. Nous observons que les représentations extraites par l’encodeur et le décodeur du réseau de reconstruction reflètent respectivement les caractéristiques de l’image d’origine et de l’image reconstruite. De plus, les différences entre ces représentations symétriques fournissent une estimation approximative de la localisation des anomalies. Pour affiner cette estimation, POUTA introduit un processus progressif de grossier à fin, qui calibre le sens de chaque couche discriminante à l’aide des représentations de haut niveau et d’une fonction de perte de supervision. Grâce à ces modules, POUTA est capable de localiser les anomalies avec une précision supérieure à celle des méthodes précédentes. En outre, la réutilisation des représentations permet d’éliminer le processus d’extraction de caractéristiques dans le réseau discriminant, réduisant ainsi le nombre de paramètres et améliorant l’efficacité. Des expériences étendues montrent que POUTA surpasse ou égale les méthodes existantes tout en nécessitant un coût computationnel moindre. En outre, POUTA obtient de meilleurs résultats que les méthodes de détection d’anomalies à faible nombre d’exemples (few-shot) les plus avancées, sans recourir à une conception spécifique, démontrant ainsi sa forte capacité à apprendre des représentations intrinsèques présentes dans les données d’entraînement.