WinCLIP: 제로/페이셔너 비정상 분류 및 세그멘테이션

시각적 이상 분류 및 세그멘테이션은 산업 품질 검사의 자동화에 있어 핵심적인 요소이다. 기존 연구의 주된 초점은 각 품질 검사 과제에 맞춰 맞춤형 모델을 훈련하는 데 있었으며, 이는 과제별 이미지와 레이블링 데이터를 필요로 했다. 본 논문에서는 이러한 접근 방식에서 벗어나, 제로샷(Zero-shot) 및 소수 정상 샘플(One-normal-shot) 환경에서의 이상 분류 및 세그멘테이션 문제를 다룬다. 최근 등장한 비전-언어 모델인 CLIP은 전반적인 일반성에서 혁신적인 성과를 보이며, 완전한 레이블링(전체 감독) 데이터에 비해 경쟁 수준의 제로샷/소수샷 성능을 달성하였다. 그러나 CLIP는 이상 분류 및 세그멘테이션 과제에서는 여전히 한계를 보이고 있다. 이를 해결하기 위해 우리는 (1) 상태어(state words)와 프롬프트 템플릿의 조합적 앙상블을 도입하고, (2) 텍스트와 정렬된 윈도우/패치/이미지 수준의 특징을 효율적으로 추출 및 통합하는 윈도우 기반 CLIP(Window-based CLIP, WinCLIP)를 제안한다. 또한 정상 이미지에서 얻은 보완 정보를 활용하는 소수 정상 샘플 환경을 지원하는 확장 버전인 WinCLIP+도 제안한다. MVTec-AD(및 VisA) 데이터셋에서 추가 튜닝 없이 WinCLIP은 제로샷 이상 분류 및 세그멘테이션에서 각각 91.8%/85.1% (78.1%/79.6%)의 AUROC 성능을 달성하였으며, WinCLIP+는 1정상 샘플 환경에서 93.1%/95.2% (83.8%/96.4%)의 성능을 기록하여 기존 최고 수준의 기법을 크게 능가하였다.