HyperAIHyperAI
il y a 2 mois

KAnoCLIP : Détection d'anomalies à zéro coup d'essai par apprentissage de prompts guidé par les connaissances et intégration croisée améliorée

Chengyuan Li; Suyang Zhou; Jieping Kong; Lei Qi; Hui Xue
KAnoCLIP : Détection d'anomalies à zéro coup d'essai par apprentissage de prompts guidé par les connaissances et intégration croisée améliorée
Résumé

La détection d'anomalies à zéro coup d'essai (ZSAD) identifie les anomalies sans nécessiter d'échantillons de formation issus du jeu de données cible, ce qui est essentiel dans des scénarios où des préoccupations liées à la confidentialité ou une limitation des données sont présentes. Les modèles vision-langage tels que CLIP montrent un potentiel en ZSAD mais présentent des limitations : l'utilisation de descriptions textuelles fixes ou de prompts d'anomalie manuellement élaborés est fastidieuse et sujette à des ambiguïtés sémantiques, et CLIP éprouve des difficultés pour segmenter les anomalies au niveau des pixels, se concentrant davantage sur la sémantique globale plutôt que sur les détails locaux. Pour remédier à ces limitations, nous introduisons KAnoCLIP, un cadre novateur de ZSAD qui exploite les modèles vision-langage. KAnoCLIP combine les connaissances générales issues d'un grand modèle linguistique (GPT-3.5) et les connaissances fines et spécifiques aux images provenant d'un système de réponse à questions visuelles (Llama3) grâce à l'apprentissage de prompts guidé par la connaissance (KnPL). KnPL utilise une fonction de perte guidée par la connaissance (KD) pour créer des prompts d'anomalie apprenables, éliminant ainsi le besoin de prompts textuels fixes et améliorant la généralisation. KAnoCLIP intègre l'encodeur visuel CLIP avec l'attention V-V (CLIP-VV), l'Attention Croisée Bidirectionnelle pour l'Interaction Multimodale Multiniveau (Bi-CMCI) et le Conv-Adapter. Ces composants préservent les sémantiques visuelles locales, améliorent la fusion multimodale locale et alignent les caractéristiques visuelles globales avec les informations textuelles, renforçant ainsi la détection d'anomalies au niveau des pixels. KAnoCLIP atteint des performances de pointe en ZSAD sur 12 jeux de données industriels et médicaux, démontrant une généralisation supérieure par rapport aux méthodes existantes.