3달 전
텍스트와 이미지가 조화를 이루지 못할 때: 이상 탐지를 위한 언어-이미지 유사도 점수의 편향 보정
Adam Goodge, Bryan Hooi, Wee Siong Ng

초록
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 이미지와 텍스트 입력 임베딩 간의 정렬을 통해 다양한 후속 작업에서 뛰어난 성능을 발휘하며, 이상 탐지 분야에서 큰 잠재력을 지닌다. 그러나 우리 실증 실험을 통해 텍스트 입력의 임베딩이 예상치 못하게 매우 밀집되어 있으며, 이미지 임베딩과는 크게 떨어져 있다는 현상이 확인되었다. 이는 모델의 대조적 학습 목적인 이미지-텍스트 쌍 간의 정렬과 정반대되는 결과이다. 본 연구에서는 이러한 현상이 '유사도 편향(similarity bias)'을 유발함을 보여주며, 정상 레이블 텍스트 임베딩과 이미지 간의 유사도에 대한 편향으로 인해 거짓 음성(false negative) 및 거짓 양성(false positive) 오류가 발생함을 밝혔다. 이 편향을 해결하기 위해, 보조적이고 외부의 텍스트 입력 집합을 활용하여 이러한 유사도 편향을 직접적으로 고려하는 새로운 방법론인 BLISS를 제안한다. BLISS는 구현이 간단하며, 이상 행동에 대한 강한 사전 지식(inductive bias)이나 비용이 큰 학습 과정을 필요로 하지 않으며, 정상 데이터에 접근이 극도로 제한된 상황에서도 기준 방법론을 크게 능가하는 성능을 보인다. 이는 주요 이미지 데이터셋에서의 벤치마크 평가를 통해 입증되었다.