HyperAIHyperAI
vor 17 Tagen

AdaCLIP: Anpassung von CLIP mit hybriden lernbaren Prompts für zero-shot Anomalieerkennung

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi
AdaCLIP: Anpassung von CLIP mit hybriden lernbaren Prompts für zero-shot Anomalieerkennung
Abstract

Zero-shot Anomalieerkennung (ZSAD) zielt darauf ab, Anomalien innerhalb von Bildern aus beliebigen neuen Kategorien zu identifizieren. Diese Studie stellt AdaCLIP für die ZSAD-Aufgabe vor, das einen vortrainierten Vision-Sprache-Modell (VLM), nämlich CLIP, nutzt. AdaCLIP integriert lernbare Prompts in CLIP und optimiert diese durch Training auf ergänzenden annotierten Daten für die Anomalieerkennung. Zwei Arten lernbarer Prompts werden vorgeschlagen: statische und dynamische Prompts. Statische Prompts werden über alle Bilder hinweg geteilt und dienen dazu, CLIP initial für die ZSAD-Anpassung zu nutzen. Im Gegensatz dazu werden dynamische Prompts für jedes Testbild generiert und ermöglichen CLIP eine dynamische Anpassungsfähigkeit. Die Kombination aus statischen und dynamischen Prompts wird als hybride Prompts bezeichnet und führt zu einer verbesserten ZSAD-Leistung. Umfangreiche Experimente an 14 realen Anomalieerkennungs-Datensätzen aus industriellen und medizinischen Bereichen zeigen, dass AdaCLIP andere ZSAD-Methoden übertrifft und eine bessere Generalisierbarkeit gegenüber unterschiedlichen Kategorien und sogar Domänen aufweist. Schließlich unterstreicht unsere Analyse die Bedeutung vielfältiger ergänzender Daten und optimierter Prompts für eine verbesserte Generalisierungsfähigkeit. Der Quellcode ist unter https://github.com/caoyunkang/AdaCLIP verfügbar.