17일 전
LADMIM: 이산 잠재 공간에서 마스킹 이미지 모델링을 활용한 논리적 이상 탐지
Shunsuke Sakai, Tatushito Hasegawa, Makoto Koshino

초록
물체의 잘못된 조합이나 위치의 편차와 같은 이상을 탐지하는 것은 산업용 이상 탐지 분야에서 여전히 도전적인 문제이다. 기존의 방법들은 주로 정상 이미지의 국소적 특징(예: 긁힘, 오염 등)에 초점을 맞추고 있어, 특징 간의 관계에서 발생하는 이상을 탐지하는 데 어려움이 있다. 마스킹 이미지 모델링(Masked Image Modeling, MIM)은 이미지의 마스킹된 영역에 대한 특징 표현을 예측하는 자기지도 학습 기법이다. 마스킹된 영역을 재구성하기 위해서는 이미지가 어떻게 구성되어 있는지를 이해할 필요가 있으며, 이는 이미지 내 특징 간의 관계를 학습하는 데 유리하다. 본 연구에서는 MIM의 특성을 활용하여 논리적 이상을 효과적으로 탐지할 수 있는 새로운 접근법을 제안한다. 재구성된 이미지의 흐림 문제를 해결하기 위해 픽셀 예측 대신 토크나이저를 사용하여 마스킹된 영역의 이산 잠재 변수의 확률 분포를 예측하는 방식을 도입하였다. 제안된 방법은 MVTecLOCO 데이터셋에서 평가되었으며, 평균 AUC가 0.867을 달성하여 기존의 재구성 기반 및 드리스틸레이션 기반 방법들을 모두 상회하였다.