HyperAIHyperAI
vor 2 Monaten

KAnoCLIP: Zero-Shot-Anomalieerkennung durch wissensbasiertes Prompt-Lernen und verbesserte multimodale Integration

Chengyuan Li; Suyang Zhou; Jieping Kong; Lei Qi; Hui Xue
KAnoCLIP: Zero-Shot-Anomalieerkennung durch wissensbasiertes Prompt-Lernen und verbesserte multimodale Integration
Abstract

Zero-Shot-Anomalieerkennung (ZSAD) identifiziert Anomalien ohne die Notwendigkeit von Trainingsbeispielen aus dem Ziel-Datensatz, was für Szenarien mit Datenschutzbedenken oder begrenzten Daten essentiell ist. Visuelle-Sprachmodelle wie CLIP zeigen Potenzial in ZSAD, haben jedoch Einschränkungen: Die Verwendung manuell erstellter fester textbasierter Beschreibungen oder Anomalie-Prompts ist zeitaufwendig und anfällig für semantische Unklarheiten, und CLIP hat Schwierigkeiten bei der pixelgenauen Anomaliesegmentierung, da es sich mehr auf globale Semantik als auf lokale Details konzentriert. Um diese Einschränkungen zu überwinden, stellen wir KAnoCLIP vor, ein neuartiges ZSAD-Framework, das visuelle-Sprachmodelle nutzt. KAnoCLIP kombiniert allgemeines Wissen aus einem großen Sprachmodell (GPT-3.5) und feingranuläres, bildspezifisches Wissen aus einem System zur visuellen Fragebeantwortung (Llama3) durch wissensgesteuertes Prompt-Lernen (KnPL). KnPL verwendet eine wissensgesteuerte (KD) Verlustfunktion, um lernfähige Anomalie-Prompts zu erstellen, was die Notwendigkeit fester Textprompts beseitigt und die Generalisierung verbessert. KAnoCLIP enthält den CLIP-visuellen Encoder mit V-V-Aufmerksamkeit (CLIP-VV), Bi-Richtungs-Kreuzaufmerksamkeit für mehrstufige multimodale Interaktion (Bi-CMCI) und einen Conv-Adapter. Diese Komponenten bewahren lokale visuelle Semantik, verbessern die lokale multimodale Fusion und bringen globale visuelle Merkmale mit textbasierter Information in Einklang, was die pixelgenaue Anomalieerkennung erheblich verbessert. KAnoCLIP erreicht Stand-of-the-Art-Leistungen in ZSAD über 12 industrielle und medizinische Datensätze hinweg und zeigt eine überlegene Generalisierung im Vergleich zu bestehenden Methoden.