WinCLIP : Classification et segmentation d'anomalies en zéro-ou peu d'exemples

La classification et la segmentation des anomalies visuelles sont essentielles pour automatiser le contrôle qualité industriel. Les recherches antérieures dans ce domaine se sont principalement concentrées sur l'entraînement de modèles personnalisés pour chaque tâche de contrôle qualité, ce qui nécessite des images spécifiques à la tâche ainsi que des annotations. Dans cet article, nous nous éloignons de cette approche, en nous attaquant à la classification et à la segmentation d'anomalies en régime zéro-exemple (zero-shot) et en peu d'exemples normaux (few-normal-shot). Récemment, CLIP, un modèle vision-langage, a démontré une généralité révolutionnaire, offrant des performances compétitives en zéro- ou peu d'exemples par rapport aux méthodes entièrement supervisées. Toutefois, CLIP se révèle insuffisant pour les tâches de classification et de segmentation d'anomalies. Nous proposons donc WinCLIP, une version basée sur des fenêtres de CLIP, qui intègre (1) un ensemble compositionnel sur les mots-clés et les modèles de prompt, et (2) une extraction efficace ainsi qu'une agrégation des caractéristiques au niveau fenêtre/patch/image, alignées avec le texte. Nous introduisons également une extension de WinCLIP pour le régime peu d'exemples normaux, appelée WinCLIP+, qui exploite des informations complémentaires provenant d'images normales. Sur MVTec-AD (et VisA), sans réglage supplémentaire, WinCLIP atteint respectivement 91,8 % / 85,1 % (78,1 % / 79,6 %) d’AUC en classification et segmentation d’anomalies en zéro-exemple, tandis que WinCLIP+ atteint 93,1 % / 95,2 % (83,8 % / 96,4 %) en 1-exemple normal, surpassant largement les méthodes de l’état de l’art.