OLED: 이상 탐지용 적대적 컨텍스트 마스킹을 갖춘 단일 클래스 학습 인코더-디코더 네트워크

새로운 패턴 탐지(노벨티 디텍션)는 타겟 클래스의 분포에 속하지 않는 샘플을 인식하는 작업이다. 학습 과정에서는 새로운 패턴 클래스가 존재하지 않기 때문에 전통적인 분류 방법을 사용할 수 없다. 깊은 오토인코더는 많은 비지도 새로운 패턴 탐지 방법의 기반으로 널리 사용되어 왔다. 특히, 원본 이미지를 무작위로 마스킹한 이미지로부터 재구성하는 방식을 통해 보다 효과적인 표현을 학습할 수 있다는 점에서 컨텍스트 오토인코더는 새로운 패턴 탐지 작업에서 성공을 거두었다. 그러나 컨텍스트 오토인코더의 주요 단점은 무작위 마스킹이 입력 이미지의 중요한 구조를 일관되게 커버하지 못한다는 점으로, 이로 인해 표현이 최적화되지 않아 새로운 패턴 탐지 작업에 특히 부정적인 영향을 미친다. 본 논문에서는 입력 마스킹을 최적화하기 위해, 두 개의 경쟁 네트워크로 구성된 프레임워크를 제안한다. 이는 마스킹 모듈(Mask Module)과 재구성기(Reconstructor)로 이루어져 있다. 마스킹 모듈은 이미지의 가장 중요한 부분을 최적의 마스크로 생성하는 것을 학습하는 컨볼루션 오토인코더이며, 재구성기는 마스킹된 이미지로부터 손상되지 않은 원본 이미지를 재구성하는 컨볼루션 인코더-디코더 구조이다. 두 네트워크는 적대적 방식으로 학습되며, 마스킹 모듈이 재구성기에 입력되는 이미지에 적용할 마스크를 생성하고, 재구성기는 그 마스크가 적용된 이미지로부터 원본 이미지를 재구성하려는 목표를 가진다. 이 과정에서 마스킹 모듈은 재구성기의 재구성 오차를 최대화하는 방향으로 학습하고, 재구성기는 이 오차를 최소화하려는 방향으로 학습하게 된다. 새로운 패턴 탐지에 적용했을 때, 제안하는 방법은 기존 컨텍스트 오토인코더보다 더 의미론적으로 � бог rich한 표현을 학습하며, 더 최적화된 마스킹을 통해 테스트 시 새로운 패턴 탐지 성능을 향상시킨다. MNIST 및 CIFAR-10 이미지 데이터셋에서 수행한 새로운 패턴 탐지 실험 결과, 제안 방법은 최첨단 기법들보다 뛰어난 성능을 보였다. 또한 UCSD 비디오 데이터셋에서 수행한 추가 실험에서도 제안 방법은 새로운 패턴 탐지 분야에서 최고 수준의 성능을 달성하였다.