AnomalyDINO : Accroître la détection de anomalies peu chronologiques basée sur les patches grâce à DINOv2

Les avancées récentes dans les modèles fondamentaux multimodaux ont établi de nouvelles normes en détection d’anomalies à faible exemple. Cette étude examine si des caractéristiques visuelles de haute qualité, prises isolément, sont suffisantes pour rivaliser avec les modèles d’état de l’art actuels basés sur la vision et le langage. Nous confirmons cette hypothèse en adaptant DINOv2 à la détection d’anomalies à un seul exemple (one-shot) et à peu d’exemples (few-shot), en mettant l’accent sur les applications industrielles. Nous démontrons que cette approche ne se contente pas de rivaliser avec les techniques existantes, mais peut même les surpasser dans de nombreux cas. Notre méthode proposée, AnomalyDINO, fondée uniquement sur la vision, suit le paradigme éprouvé de plus proche voisin profond au niveau des patches, et permet à la fois la prédiction d’anomalies au niveau de l’image et la segmentation d’anomalies au niveau des pixels. L’approche est méthodologiquement simple et ne nécessite aucune phase d’entraînement, ce qui signifie qu’elle ne requiert aucune donnée supplémentaire pour le fine-tuning ou l’apprentissage métadonnées. Malgré sa simplicité, AnomalyDINO atteint des résultats de pointe en détection d’anomalies à un ou peu d’exemples (par exemple, portant le score AUROC sur MVTec-AD de 93,1 % à 96,6 % en mode one-shot). La faible charge computationnelle, combinée à ses performances exceptionnelles en peu d’exemples, en fait un candidat particulièrement prometteur pour un déploiement rapide, notamment dans des contextes industriels.