
다음과 같은 질문을 제기한다: 효과적인 이상치(outlier)/분포 외(out-of-distribution, OOD) 탐지기 설계에 필요한 훈련 정보는 무엇인가? 즉, 훈련 분포에서 크게 벗어난 샘플을 탐지하는 것에 대해 말이다. 많은 응용 분야에서 레이블이 없는 데이터는 쉽게 접근 가능하므로, 가장 매력적인 접근법은 오직 레이블이 없는 내부 분포(in-distribution) 데이터만을 기반으로 탐지기를 개발하는 것이다. 그러나 우리는 기존의 레이블 없는 데이터에 기반한 대부분의 탐지기가 낮은 성능을 보이며, 종종 무작위 예측과 동일한 수준임을 관찰한다. 반면, 현재 최고 수준의 OOD 탐지기는 뛰어난 성능을 달성하지만, 감독 학습을 위해 세부적인 데이터 레이블에 접근이 필요하다. 우리는 오직 레이블이 없는 내부 분포 데이터만을 사용하는 이상치 탐지기인 SSD(Selective Self-supervised Detection)를 제안한다. 본 방법은 자기지도 학습(self-supervised representation learning)을 통해 특징 공간에서 마할라노비스 거리(Mahalanobis distance) 기반 탐지기를 적용한다. 우리는 SSD가 레이블 없는 데이터 기반 기존 탐지기들에 비해 크게 우수한 성능을 보임을 입증한다. 더불어, SSD는 감독 학습 기반 탐지기와 비교해도 성능이 근사하거나 때로는 더 우수한 결과를 달성한다. 마지막으로, 본 탐지 프레임워크를 두 가지 핵심적인 확장으로 확장한다. 첫째, 한 번에 하나에서 다섯 개의 샘플만을 사용 가능한 소수 샘플(few-shot) OOD 탐지 문제를 정식화한다. 둘째, 만약 훈련 데이터 레이블이 제공된다면, 이를 프레임워크에 통합할 수 있도록 확장한다. 우리는 SSD 기반의 새로운 탐지 프레임워크가 이러한 확장에 의해 성능이 향상되며, 최고 수준의 성능을 달성함을 확인했다. 본 연구의 코드는 공개되어 있으며, https://github.com/inspire-group/SSD 에서 확인할 수 있다.