2달 전

KAnoCLIP: 지식 주도 프롬프트 학습과 강화된 다중 모달 통합을 통한 제로샷 이상 탐지

Chengyuan Li; Suyang Zhou; Jieping Kong; Lei Qi; Hui Xue
KAnoCLIP: 지식 주도 프롬프트 학습과 강화된 다중 모달 통합을 통한 제로샷 이상 탐지
초록

제로샷 이상 탐지(Zero-shot Anomaly Detection, ZSAD)는 대상 데이터셋의 학습 샘플이 필요하지 않은 상태에서 이상을 식별하는 기술로, 프라이버시 문제나 제한된 데이터가 있는 시나리오에서 필수적입니다. CLIP와 같은 비전-언어 모델은 ZSAD에 잠재력을 보여주지만 다음과 같은 한계점이 있습니다: 수작업으로 작성된 고정된 텍스트 설명이나 이상 프롬프트(anomaly prompt)에 의존하면 시간이 많이 소요되고 의미 상의 모호성(semantic ambiguity)에 취약하며, CLIP는 전역적인 의미(global semantics)보다는 국소적인 세부 정보(local details)에 초점을 맞추지 못하여 픽셀 단위의 이상 분할(pixel-level anomaly segmentation)에 어려움을 겪습니다.이러한 한계를 극복하기 위해, 우리는 새로운 ZSAD 프레임워크인 KAnoCLIP을 소개합니다. KAnoCLIP은 지식 주도 프롬프트 학습(Knowledge-Driven Prompt Learning, KnPL)을 통해 대형 언어 모델(Large Language Model, GPT-3.5)에서 얻은 일반 지식과 시각 질문 응답 시스템(Visual Question Answering system, Llama3)에서 얻은 세부적인 이미지 특화 지식을 결합합니다. KnPL은 지식 주도(knowledge-driven, KD) 손실 함수(loss function)를 사용하여 학습 가능한 이상 프롬프트를 생성하여 고정된 텍스트 프롬프트의 필요성을 제거하고 일반화 능력을 향상시킵니다.KAnoCLIP은 CLIP 시각 인코더(CLIP visual encoder)와 V-V 어텐션(CLIP-VV), 다중 레벨 크로스-모달 상호 작용을 위한 양방향 크로스-어텐션(Bi-Directional Cross-Attention for Multi-Level Cross-Modal Interaction, Bi-CMCI), 그리고 컨브-어댑터(Conv-Adapter)를 포함합니다. 이러한 구성 요소들은 국소적인 시각적 의미를 유지하고 국소 크로스-모달 융합을 개선하며 전역적인 시각적 특징과 텍스트 정보를 일치시키는데 기여하여 픽셀 단위의 이상 탐지를 강화합니다. KAnoCLIP은 12개의 산업 및 의료 데이터셋에서 최고 수준의 성능을 달성하였으며, 기존 방법들보다 우수한 일반화 능력을 입증하였습니다.