산업용 이상 탐지에서 도메인 시프트: 실제 세계 데이터셋 및 마스킹 다중 스케일 재구성

산업 이상 탐지(IAD, Industrial Anomaly Detection)는 산업 품질 검사의 자동화에 핵심적인 역할을 한다. 포괄적인 IAD 알고리즘을 개발하기 위한 기초는 데이터셋의 다양성에 있다. 기존의 IAD 데이터셋은 주로 데이터 카테고리 간의 다양성에 초점을 맞추고 있으나, 동일한 데이터 카테고리 내에서의 도메인 다양성은 간과하고 있다. 본 논문에서는 이러한 격차를 보완하기 위해 항공기 엔진 블레이드 이상 탐지(AeBAD, Aero-engine Blade Anomaly Detection) 데이터셋을 제안한다. 이 데이터셋은 두 가지 하위 데이터셋으로 구성되며, 각각 단일 블레이드 데이터셋과 블레이드 영상 이상 탐지 데이터셋이다. 기존 데이터셋과 비교할 때 AeBAD는 다음과 같은 두 가지 특징을 갖는다. 1) 타겟 샘플들이 정렬되지 않았으며, 서로 다른 스케일로 구성되어 있다. 2) 테스트 세트의 정상 샘플 분포와 훈련 세트의 정상 샘플 분포 사이에 도메인 전이(domain shift)가 존재하며, 이는 주로 조명 조건과 시점의 변화에 기인한다. 이 데이터셋을 기반으로 현재 최고 성능(SOTA, State-of-the-Art)의 IAD 기법들이 테스트 세트의 정상 샘플 도메인이 전이될 경우에 한계를 보임을 관찰하였다. 이러한 문제를 해결하기 위해, 정상 샘플 내의 패치들 간의 인과관계를 추론할 수 있는 능력을 향상시키기 위해 마스킹된 다중 해상도 재구성(masked multi-scale reconstruction, MMR)이라는 새로운 방법을 제안한다. MMR은 AeBAD 데이터셋에서 기존 SOTA 기법들에 비해 우수한 성능을 달성하였으며, MVTec AD 데이터셋에서도 다양한 유형의 이상을 탐지하는 데 있어 SOTA 기법들과 경쟁 가능한 성능을 보였다. 코드와 데이터셋은 다음 링크에서 공개된다: https://github.com/zhangzilongc/MMR.