AnomalyCLIP: 제로샷 이상 탐지를 위한 객체 무관 프롬프트 학습

제로샷 이상 탐지(Zero-shot anomaly detection, ZSAD)는 타겟 데이터셋에 어떠한 학습 샘플도 없이, 보조 데이터를 사용해 학습된 탐지 모델이 이상을 탐지하는 것을 요구한다. 데이터 프라이버시 등 다양한 이유로 학습 데이터에 접근이 불가능한 상황에서 이는 매우 중요한 과제이지만, 전경 객체, 비정상 영역, 배경 특징(예: 다양한 제품이나 기관에 존재하는 결함/종양 등)의 외형이 상당히 다를 수 있는 서로 다른 도메인에 대해 모델이 일반화해야 하기 때문에 도전적인 과제이다. 최근, CLIP과 같은 대규모 사전 학습된 시각-언어 모델(Vision-Language Models, VLMs)은 다양한 시각 작업, 특히 이상 탐지에서 뛰어난 제로샷 인식 능력을 보여주고 있다. 그러나 이러한 VLMs는 이미지 내 전경 객체의 클래스 의미를 모델링하는 데 집중하는 반면, 이미지 내 정상성과 비정상성에 대한 표현은 상대적으로 약하기 때문에 제로샷 이상 탐지(ZSAD) 성능이 제한적이다. 본 논문에서는 다양한 도메인에서 정확한 제로샷 이상 탐지가 가능한 새로운 접근법인 AnomalyCLIP을 제안한다. AnomalyCLIP의 핵심 아이디어는 전경 객체에 의존하지 않는 객체 무관(text) 프롬프트를 학습함으로써, 이미지 내 일반적인 정상성과 비정상성을 전경 객체의 종류와 무관하게 포착하는 것이다. 이를 통해 모델은 객체의 의미보다는 비정상적인 이미지 영역에 주목할 수 있게 되어, 다양한 종류의 객체에 대해 일반화된 정상성과 비정상성 인식이 가능해진다. 다양한 결함 검사 및 의료 영상 도메인에서 나온 17개의 실제 이상 탐지 데이터셋을 대상으로 한 대규모 실험 결과, AnomalyCLIP은 클래스 의미가 매우 다양하고 복잡한 데이터셋에서도 이상 탐지 및 세그멘테이션에 대해 우수한 제로샷 성능을 달성함을 입증하였다. 코드는 https://github.com/zqhang/AnomalyCLIP에서 공개될 예정이다.