
초록
컴퓨터 비전에서의 이상 탐지란 정상 이미지 집합에서 벗어난 이미지를 식별하는 작업이다. 일반적인 접근 방식은 깊은 합성곱 오토인코더를 사용하여 이미지의 가려진 영역을 보정하고, 결과 출력물을 원본 이미지와 비교하는 것이다. 이상 없는 샘플들만으로 모델을 학습시킴으로써, 이상 영역은 제대로 재구성하지 못할 것으로 가정한다. 보정을 통한 이상 탐지의 경우, 멀리 떨어진 영역들로부터의 정보를 통합하는 것이 유리할 수 있다. 특히 본 연구에서는 이상 탐지를 패치 보정 문제로 재정의하고, 합성곱을 제거한 순수 자기 주의(self-attention) 기반의 접근 방식을 제안한다. 제안된 보정 트랜스포머(Inpainting Transformer, InTra)는 대규모 이미지 패치 시퀀스에서 가려진 패치를 보정하도록 학습되며, 입력 이미지의 광범위한 영역에 걸쳐 정보를 통합한다. 추가적인 학습 데이터 없이 초기부터 학습하는 경우, InTra는 MVTec AD 데이터셋에서 이상 탐지 성능에서 현재 최고 수준의 기법들과 비슷한 성능을 달성하며, 이상 분할(segmentation)에서는 이를 능가한다.