AnomalyCLIP: objektunabhängiges Prompt-Lernen für zero-shot Anomalieerkennung

Zero-Shot-Anomalieerkennung (ZSAD) erfordert Erkennungsmodelle, die mit Hilfsdaten trainiert wurden, um Anomalien ohne jegliche Trainingsbeispiele in einem Ziel-Datensatz zu detektieren. Dies ist eine entscheidende Aufgabe, wenn Trainingsdaten aufgrund verschiedener Bedenken – beispielsweise Datenschutz – nicht zugänglich sind. Gleichzeitig ist sie herausfordernd, da die Modelle Anomalien über verschiedene Domänen hinweg generalisieren müssen, wobei das Erscheinungsbild von Vordergrundobjekten, abnormen Regionen und Hintergrundmerkmalen – wie Defekte auf unterschiedlichen Produkten oder Tumore in verschiedenen Organen – erheblich variieren kann. Kürzlich haben große vortrainierte Vision-Sprache-Modelle (VLMs), wie CLIP, eine starke Fähigkeit im zero-shot-Erkennungsbereich in verschiedenen visuellen Aufgaben, einschließlich Anomalieerkennung, demonstriert. Ihre ZSAD-Leistung bleibt jedoch begrenzt, da VLMs stärker auf die Modellierung der Klassen-Semantik von Vordergrundobjekten fokussieren, anstatt auf die Abweichung von Normalität oder Anomalie in Bildern. In diesem Artikel stellen wir einen neuartigen Ansatz namens AnomalyCLIP vor, um CLIP für eine präzise ZSAD über verschiedene Domänen hinweg anzupassen. Der zentrale Ansatz von AnomalyCLIP besteht darin, objektunabhängige Text-Prompts zu lernen, die generische Normalität und Anomalie in einem Bild erfassen, unabhängig von den jeweiligen Vordergrundobjekten. Dadurch kann unser Modell sich auf abnorme Bildregionen konzentrieren, anstatt auf die Objektsignifikanz, was eine generalisierte Erkennung von Normalität und Anomalie bei unterschiedlichsten Objekttypen ermöglicht. Umfangreiche Experimente an 17 realen Anomalieerkennungs-Datensätzen zeigen, dass AnomalyCLIP eine überlegene zero-shot-Leistung bei der Erkennung und Segmentierung von Anomalien in Datensätzen mit stark unterschiedlichen Klassen-Semantiken aus verschiedenen Bereichen der Defektprüfung und medizinischen Bildgebung erreicht. Der Quellcode wird unter https://github.com/zqhang/AnomalyCLIP verfügbar gemacht.