Distillation par découplage à modélisation dual pour la détection d’anomalies non supervisée

La distillation de connaissances fondée sur les réseaux étudiant-enseignant constitue l'une des principales approches pour la détection d'anomalies non supervisée, une tâche particulièrement exigeante, en exploitant la différence de capacité de représentation entre les réseaux enseignant et étudiant afin d'effectuer une localisation précise des anomalies. Toutefois, une généralisation excessive du réseau étudiant vers celui de l'enseignant peut entraîner une diminution négligeable des différences dans les représentations des anomalies, compromettant ainsi l'efficacité de la détection. Les méthodes existantes tentent de pallier ce risque de sur-généralisation en introduisant des architectures d'étudiants et d'enseignants différenciées d’un point de vue structurel, ou en élargissant explicitement les informations distillées d’un point de vue sémantique, ce qui entraîne inévitablement un risque accru de sous-apprentissage du réseau étudiant, ainsi qu’une faible capacité de détection des anomalies situées au centre ou aux bords. Dans cet article, nous proposons une nouvelle méthode, Dual-Modeling Decouple Distillation (DMDD), dédiée à la détection d'anomalies non supervisée. Dans DMDD, nous introduisons un réseau étudiant-enseignant déconnecté, permettant de séparer les caractéristiques initiales de l’étudiant en deux composantes distinctes : les caractéristiques de normalité et celles d’anomalie. Par ailleurs, nous proposons une distillation à double modélisation basée sur des paires d’images normales et anormales, qui consiste à ajuster les caractéristiques de normalité des images anormales tout en s’alignant sur les caractéristiques de l’enseignant pour les images normales correspondantes. Cette stratégie permet d’élargir artificiellement l’écart entre les caractéristiques d’anomalie et celles de l’enseignant dans les régions anormales. En combinant ces deux mécanismes de distillation, nous parvenons à une détection d’anomalies qui prend en compte à la fois les régions centrales et les contours des anomalies. Enfin, nous proposons un réseau de segmentation multi-perception, conçu pour fusionner de manière ciblée les cartes d’anomalie grâce à plusieurs mécanismes d’attention. Les résultats expérimentaux sur le jeu de données MVTec AD montrent que DMDD surpasser les méthodes de distillation de connaissances les plus avancées en matière de localisation, atteignant un taux de 98,85 % en AUC au niveau pixel et 96,13 % en PRO.